IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Twitter

     24.05.2016       Выпуск 127 (23.05.2016 - 29.05.2016)       Статьи

Обработка данных в iPython notebook для задач SEO data analysis IPython Jupyter

При выполнении аналитических задач SEO, SMM, маркетинга мы столкнулись с непомерно растущим количеством инструментов для обработки данных. Каждый заточен под свои возможности или доступность для пользователя: Excel и VBA, сторонние SEO-инструменты, PHP и MySQL, Python, C, Hive и другие. Разнообразные системы и источники данных добавляют проблем: счетчики, рекламные системы, CRM, инструменты вебмастера Яндекса и Google, соцсети, HDFS. Необходим инструмент, совмещающий в себе простоту настройки и использования, модули для получения, обработки и визуализации данных, а также работы с различными типами источников. Выбор пал на iPython notebook (с недавних пор Jupyter notebook), представляющий собой платформу для работы со скриптами на 40 языках программирования. Широкое распространение платформа получила для научных вычислений, среди специалистов по обработке данных и машинному обучению. К сожалению для автоматизации и обработки данных маркетинговых задач Jupyter notebook используется крайне редко.

     05.05.2016       Выпуск 124 (02.05.2016 - 08.05.2016)       Видео

Python масштабирование: удобная правда PySpark Hadoop data analysis scalability Spark

Travis Oliphant рассматривает базовые понятия, которые необходимы для масташирования Python и развеивает мифы о пределах производительности. Travis рассмотрит распространенные проблемы, которые возникают при интеграции Python с Hadoop и Spark. Будет продемонстированы примеры реального кода

     05.05.2016       Выпуск 124 (02.05.2016 - 08.05.2016)       Интересные проекты, инструменты, библиотеки

databench - Realtime data analysis tool. Flask websocket data analysis

Пакет предоставляет web-интерфейс на flask+d3.js и вебсокетах для анализа данных в реальном времени.

     19.04.2016       Выпуск 122 (18.04.2016 - 24.04.2016)       Интересные проекты, инструменты, библиотеки

data_hacks - CLI для анализа данных analysis CLI data analysis

$ cat /tmp/data | histogram.py --percentage --max=1000 --min=0
# NumSamples = 60; Min = 0.00; Max = 1000.00
# 1 value outside of min/max
# Mean = 332.666667; Variance = 471056.055556; SD = 686.335236; Median 191.000000
# each ∎ represents a count of 1
    0.0000 -   100.0000 [    28]: ∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎∎ (46.67%)
  100.0000 -   200.0000 [     2]: ∎∎ (3.33%)
  200.0000 -   300.0000 [     2]: ∎∎ (3.33%)
  300.0000 -   400.0000 [     8]: ∎∎∎∎∎∎∎∎ (13.33%)
  400.0000 -   500.0000 [     8]: ∎∎∎∎∎∎∎∎ (13.33%)
  500.0000 -   600.0000 [     7]: ∎∎∎∎∎∎∎ (11.67%)
  600.0000 -   700.0000 [     3]: ∎∎∎ (5.00%)
  700.0000 -   800.0000 [     0]:  (0.00%)
  800.0000 -   900.0000 [     1]: ∎ (1.67%)
  900.0000 -  1000.0000 [     0]:  (0.00%)