Франция вступает в Демократию
КВН без шуток: Масляков старший Александр умер
Дуров публично отверг обвинения
В Латвии налоги растут, что с зарплатами и пенсиями?
2024.aug. Разработчик Fedora, работающий в компании Red Hat, представил инструментарий SyncStar, позволяющий развёртывать сервисы для организации записи на USB-носители операционных систем на выбор пользователя.
Демократия хуже диктатуры, опозорилась перед всем миром
API зло!!! и Zeek 7.0.0 Wireshark 4.4.0 это захват интернет
kt: Эколог. катастрофа в Греции на берег выброшены сотни тысяч мертвых рыб
it: Вниманние шпионы плагине ss-otr к Pidgin выявлен вредоносный код
Латвия прощается Аленом Делоном и покажет фильм «Самурай» нафестивале «Балтийская жемчужина»
it: Как обуздать замок лжи Windows
Бывший президент Латвии Валдис Затлерс в латвийской политике

Релиз системы распознавания текста Tesseract 5.3.4

2024jan. Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения.

Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF.

Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, AVX512F, NEON или SSE4.1.

 

Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl.

При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie.
В сервере ScrollView в качестве приоритетного протокола задействован TCP.
При использовании команды “combine_tessdata -d” обеспечен вывод в поток stdout вместо stderr.
Устранены проблемы со сборкой при использовании autoconf и clang.

 

tags: helpsoc, tesseract, ocr
тэги: helpsoc, tesseract, ocr

 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *