01.06.2022 Выпуск 441 (30.05.2022 - 05.06.2022) Статьи

Как я дообучал Tesseract и что из этого получилось

Решал я как-то задачку по поиску сущностей в отсканированных документах. Чтобы работать с текстом, надо его сначала получить из картинки, поэтому приходилось использовать OCR. Выбор пал на одну из самых популярных и доступных библиотек Tesseract. С ее помощью задача решается очень неплохо и процент распознавания текста достаточно высокий, особенно на хороших сканах. Но нет предела совершенству, а так же ввиду наличия большого количества документов сомнительного качества, по-улучшав пайплайн разными методами, было принято решение попробовать улучшить и сам тессеракт.

IT-новости про Python, которые стоит знать

Как я дообучал Tesseract и что из этого получилось