IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
консультируем про IT, Python

     04.04.2016       Выпуск 120 (04.04.2016 - 10.04.2016)       Статьи

Разрушители мифов: Автоматическое решение Google Recaptcha google recaptcha CAPTCHA scipy hash numpy

Привет! Я воплощаю интересные идеи на python и рассказываю о том, что из этого вышло. В прошлый раз я пробовал найти аномалии на карте цен недвижимости. Просто так. На этот раз идея была построить систему, которая смогла бы сама решать очень популярную ныне Google Recaptcha 2.0, основываясь на некоторых алгоритмах и большой базе обучающих примеров. 
Google Recaptcha 2.0 представляет собой набор изображений (9 или 16 квадратных картинок под одной инструкцией), среди которых пользователю, для подтверждения своей разумности, нужно выбрать все изображения одной категории. Речь пойдет НЕ о построении системы машинного обучения — распознавать мы будем именно капчи!

     02.04.2016       Выпуск 119 (28.03.2016 - 03.04.2016)       Статьи

Обманчивое моделирование: переобучение, кросс-валидация modeling

Статья описывает проблемы, которые возникают при моделированнии. Много примеров и картинок

     02.04.2016       Выпуск 119 (28.03.2016 - 03.04.2016)       Статьи

'abcde'+'fgh'=? wat task

Это статья про довольно неожиданный результат выполнения программы на python. Матёрым разработчикам она покажется детским лепетом, но для тех, кто изредка использует python как полезный инструмент будет несомненно интересна. Также рекомендую её как гимнастику ума. Чтобы заняться этой гимнастикой могли все желающие не добавлял в статью ни строчки кода. 

     01.04.2016       Выпуск 119 (28.03.2016 - 03.04.2016)       Статьи

Стеганография в акроконструкциях. Алгоритм DANTSOVA algorithm

Давно хотел опубликовать этот just4fun проектик по стеганографии, но что-то не было времени. 
И вот и время и повод нашелся. 
К тому же пятница!

     01.04.2016       Выпуск 119 (28.03.2016 - 03.04.2016)       Статьи
     01.04.2016       Выпуск 119 (28.03.2016 - 03.04.2016)       Статьи

Планирование путешествия на автобусе с Python & Singapore's Smart Nation APIs analysis tutorial requests

История использования API для крутого анализа данных. Все очень подробно и по шагам

     30.03.2016       Выпуск 119 (28.03.2016 - 03.04.2016)       Статьи

Автоматизация оформления документации uml erp documentation

Работая над проектами связанными с авионикой мне потребовалось оформить несколько комплектов документации с полным описанием проекта. Также следовало учитывать требования многих ГОСТов на оформление и на содержание документации, таких как ЕСПД, КТ-178B и других.

     27.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи

Web Scrapping с помощью python beautiful soup scrapy scraping lxml xpath parsing

Недавно заглянув на КиноПоиск, я обнаружила, что за долгие годы успела оставить более 1000 оценок и подумала, что было бы интересно поисследовать эти данные подробнее: менялись ли мои вкусы в кино с течением времени? есть ли годовая/недельная сезонность в активности? коррелируют ли мои оценки с рейтингом КиноПоиска, IMDb или кинокритиков? 
Но прежде чем анализировать и строить красивые графики, нужно получить данные. К сожалению, многие сервисы (и КиноПоиск не исключение) не имеют публичного API, так что, приходится засучить рукава и парсить html-страницы. Именно о том, как скачать и распарсить web-cайт, я и хочу рассказать в этой статье.
В первую очередь статья предназначена для тех, кто всегда хотел разобраться с Web Scrapping, но не доходили руки или не знал с чего начать. 

Off-topic: к слову, Новый Кинопоиск под капотом использует запросы, которые возвращают данные об оценках в виде JSON, так что, задача могла быть решена и другим путем.

     25.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи
     24.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи

Прогнозирование с помощью PySpark используя MLlib и ML пакеты

Процесс прогнозирования в значительной степени зависит от данных и часто использует передовые методы машинного обучения. В этой статье мы посмотрим разновидности данных, как делать некоторый предварительный анализ данных, а также как генерировать модели прогнозирования оттока абонентов - все с помощью PySpark и ее рамках машинного обучения.

     24.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи

Pandashells: Data Science в командной строке

По ссылке вы найдете демо использования Pandashells для выполнения различной обработки данных, анализа и визуализации в командно строке

     24.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи
     23.03.2016       Выпуск 118 (21.03.2016 - 27.03.2016)       Статьи

Разработка сервиса по загрузке альбомов

Не так давно появилось желание скачать из альбома сообщества все изображения, поискав в интернете подходящий сервис, наткнулся лишь на платные сервисы, что мне не совсем подходило.

И вот в преддверии дня рождения, появилось время и отличное настроение для написания сервиса.