Собрали в одном месте самые важные ссылки
читайте авторский блог
Данная статья представляет перевод главы, обучающей работе с текстовыми данными, из официальной документации scikit-learn. Цель этой главы — это исследование некоторых из самых важных инструментов в scikit-learn на одной частной задаче: анализ коллекции текстовых документов (новостные статьи) на 20 различных тематик. В этой главе мы рассмотрим как: загрузить содержимое файла и категории выделить вектора признаков, подходящих для машинного обучения обучить одномерную модель выполнять категоризацию использовать стратегию grid search, чтобы найти наилучшую конфигурацию для извлечения признаков и для классификатора