IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте авторский блог

     03.09.2015       Выпуск 89 (31.08.2015 - 06.09.2015)       Статьи

Работа с текстовыми данными в scikit-learn (перевод документации) — часть 2

Данная статья представляет перевод главы, обучающей работе с текстовыми данными, из официальной документации scikit-learn. Начало статьи вы можете прочесть в части 1. Обучение классификатора Теперь, когда мы выделили признаки, можно обучать классификатор предстазывать категорию текста. Давайте начнем с Наивного Байесовского классификатора, который станет прекрасной отправной точкой для нашей задачи. scikit-learn включает в себя несколько вариантов этого классификатора. Самый подходящий для подсчета слов — это его поли номинальный вариант: >>> from sklearn.naive_bayes import MultinomialNB >>> clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)