IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Twitter

     29.09.2016       Выпуск 145 (26.09.2016 - 02.10.2016)       Статьи
     08.09.2016       Выпуск 142 (05.09.2016 - 11.09.2016)       Статьи
     28.08.2016       Выпуск 140 (22.08.2016 - 28.08.2016)       Статьи

Scrapy: собираем данные и сохраняем в базу данных scrapy

Меня заинтересовал данный фреймворк для сбора информации с сайтов. Здесь были публикации по Scrapy, но поскольку детальной информации на русском языке мало, то я хотел бы рассказать о своем опыте. 

     13.07.2016       Выпуск 134 (11.07.2016 - 17.07.2016)       Статьи

Улучшения доступа для результатов выборов Peruvian Congress Bills с помощью Scrapy scrapy

Статья о том, как парсинг может помочь в упрощении доступа к данным

     22.06.2016       Выпуск 131 (20.06.2016 - 26.06.2016)       Статьи
     18.05.2016       Выпуск 126 (16.05.2016 - 22.05.2016)       Статьи
     11.05.2016       Выпуск 125 (09.05.2016 - 15.05.2016)       Статьи

Scrapy + MonkeyLearn: текстологический анализ данных scrapy machine learning MonkeyLearn

Недавно мы сообщили о интеграции с MonkeyLearn, что позволило организовать машинное обучение Scrapy + Portia.

Поговорим о MonkeyLearn + Scrapy

     21.04.2016       Выпуск 122 (18.04.2016 - 24.04.2016)       Статьи

Scrapy советы для профи: Апрель 2016 scrapy scraping ASP.NET

В после рассказывается как использовать Scrapy для парсинга страниц на ASP.NET.

     27.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи

Web Scrapping с помощью python beautiful soup scrapy scraping lxml xpath parsing

Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков? 
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать. 

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.