17.11.2016 Выпуск 152 (14.11.2016 - 20.11.2016) Статьи

Python Web Scraping используя Beautiful Soup scraping

25.08.2016 Выпуск 140 (22.08.2016 - 28.08.2016) Статьи

Как вежливо парсить web с помощью Scrapy scrapy scraping

18.05.2016 Выпуск 126 (16.05.2016 - 22.05.2016) Статьи

Scrapy советы для профи: Май 2016 scrapy scraping

04.05.2016 Выпуск 124 (02.05.2016 - 08.05.2016) Релизы

Анонс Scrapy Cloud 2.0 scrapy scraping

Scrapy Cloud был с ScrapingHub с самого начала, но мы решили провести небольшую уборку. С этой целью мы с гордостью рады объявить о Scrapy Cloud 2.0. Это обновление поможет улучшить и расширить свои web scraping проекты.

21.04.2016 Выпуск 122 (18.04.2016 - 24.04.2016) Статьи

Scrapy советы для профи: Апрель 2016 scrapy scraping ASP.NET

В после рассказывается как использовать Scrapy для парсинга страниц на ASP.NET.

27.03.2016 Выпуск 118 (21.03.2016 - 27.03.2016) Статьи

Web Scrapping с помощью python beautiful soup scrapy scraping lxml xpath parsing

Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков?
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать.

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.