29.09.2016 Выпуск 145 (26.09.2016 - 02.10.2016) Статьи

Как запускать Python скрипты в Scrapy Cloud scrapy

08.09.2016 Выпуск 142 (05.09.2016 - 11.09.2016) Статьи

Как деплоить Docker Image для Web Crawlers? scrapy docker

28.08.2016 Выпуск 140 (22.08.2016 - 28.08.2016) Статьи

Scrapy: собираем данные и сохраняем в базу данных scrapy

Меня заинтересовал данный фреймворк для сбора информации с сайтов. Здесь были публикации по Scrapy, но поскольку детальной информации на русском языке мало, то я хотел бы рассказать о своем опыте.

25.08.2016 Выпуск 140 (22.08.2016 - 28.08.2016) Статьи

Как вежливо парсить web с помощью Scrapy scrapy scraping

13.07.2016 Выпуск 134 (11.07.2016 - 17.07.2016) Статьи

Улучшения доступа для результатов выборов Peruvian Congress Bills с помощью Scrapy scrapy

Статья о том, как парсинг может помочь в упрощении доступа к данным

22.06.2016 Выпуск 131 (20.06.2016 - 26.06.2016) Статьи

Scrapy советы от профи: Июнь 2016 scrapy

26.05.2016 Выпуск 127 (23.05.2016 - 29.05.2016) Статьи

Web Scraping – парсим комиксы с сайта Comixology scrapy parsing

18.05.2016 Выпуск 126 (16.05.2016 - 22.05.2016) Статьи

Scrapy советы для профи: Май 2016 scrapy scraping

11.05.2016 Выпуск 125 (09.05.2016 - 15.05.2016) Статьи

Scrapy + MonkeyLearn: текстологический анализ данных MonkeyLearn scrapy machine learning

Недавно мы сообщили о интеграции с MonkeyLearn, что позволило организовать машинное обучение Scrapy + Portia.

Поговорим о MonkeyLearn + Scrapy

05.05.2016 Выпуск 124 (02.05.2016 - 08.05.2016) Статьи

Извлекаем данные с сайтов используя Scrapy scrapy data mining

21.04.2016 Выпуск 122 (18.04.2016 - 24.04.2016) Статьи

Scrapy советы для профи: Апрель 2016 scrapy scraping ASP.NET

В после рассказывается как использовать Scrapy для парсинга страниц на ASP.NET.

27.03.2016 Выпуск 118 (21.03.2016 - 27.03.2016) Статьи

Web Scrapping с помощью python beautiful soup scrapy scraping lxml xpath parsing

Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков?
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать.

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.

Все Только на русском Только на английском

IT-новости про Python, которые стоит знать