12.02.2021 Выпуск 373 (08.02.2021 - 14.02.2021) Статьи

Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM

Бывает так, что критерии поиска текстов слишком сложны, чтобы обойтись регулярными выражениями. В таких случаях на помощь приходит ML. Если из списка текстов выбрать самый подходящий для нас, можно выяснить похожесть всех остальных текстов на этот. Похожесть(similarity) это численная мера, чем выше – тем более текст похож, поэтому при сортировке по убыванию по этому параметру мы увидим наиболее подходящие нам тексты из выборки.

IT-новости про Python, которые стоит знать

Ранжирование текстов по похожести на опорные тексты при помощи модели TF-IDF в реализации GENSM