22.03.2023 Выпуск 483 (20.03.2023 - 26.03.2023) Статьи

История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени

Небольшой рассказ с картинками о проведении тематического моделирования для массива документов, на примере датасета анекдотов на русском языке. В работе применены библиотеки Gensim, Sklearn. Рассмотрены разные способы векторизации токенов bag of words, tf-idf. Получены результаты для обсуждения и продолжения.

IT-новости про Python, которые стоит знать

История о том, как прочитать 120 тысяч анекдотов и не рассмеяться раньше времени