30.06.2023 Выпуск 497 (26.06.2023 - 02.07.2023) Статьи

Фильтруй базар! Как мы параллельный русско-башкирский корпус чистили

Чтобы обучать нейросети понимать и генерировать человеческие языки, нужно много качественных текстов на нужных языках. «Много» – не проблема в эпоху интернета, но с качеством бывают сложности. В этом посте я предлагаю использовать BERT-подобные модели для двух задач улучшения качества обучающих текстов: исправление ошибок распознавания текста из сканов и фильтрация параллельного корпуса предложений. Я испробовал их на башкирском, но и для других языков эти рецепты могут оказаться полезны.

IT-новости про Python, которые стоит знать

Фильтруй базар! Как мы параллельный русско-башкирский корпус чистили