IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Twitter

     27.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Сказ о том, как мы BigQuery приручали

На самом деле, задача, о которой хочется рассказать, проста до уныния по своей формулировке: нужно было визуализировать данные по продажам отдела e-commerce малой кровью, т.е., читай, практически даром.

 

Что под этим понимается? Корзины наших магазинов генерят постоянный поток данных об онлайн-продажах в разных регионах мира со всеми вытекающими: разные валюты, часовые пояса, налоги, типы клиентов, виды номенклатуры, заказов и т.д. На самом деле, то же самое генерит любой интернет-магазин, только, возможно, варианты параметров у заказов немного отличаются.

     27.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Внутри виртуальной машины Python. Часть 2

Python обычно не рассматривается как компилируемый язык, но на самом деле он является таковым. Во время компиляции исходный код, написанный на Python, преобразуется в байт-код, который потом выполняется виртуальной машиной. Однако, процесс компиляции в Python является довольно простым и не включает в себя множество сложных этапов. Он состоит из следующих шагов в указанном порядке

     27.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Как реализовать кластеризацию в Power BI с помощью PyCaret

В одной из последних статей мы говорили о том, как создать детектор аномалий в Power BI, интегрировав в него PyCaret, и помочь аналитикам и специалистам по анализу данных добавить машинное обучение в отчеты и панели мониторинга без лишних трудозатрат.

В этой статье мы рассмотрим, как с помощью PyCaret и Power BI провести кластерный анализ. Если раньше вы ничего не слышали о PyCaret, начать знакомство с ним вы можете тут.

     27.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Введение в Python Functools

Functools – это библиотека Python, которая предназначена для работы с функциями высшего порядка. Такие функции могут принимать в себя другие функции и возвращать функции. Они помогают разработчиком писать код, который можно переиспользовать. Функции можно использовать или расширять, не переписывая их полностью. Модуль functools в Python предоставляет различные инструменты, которые позволяют добиться описанного эффекта. Например, следующие:

     27.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 2

В предыдущей статье мы с вами рассмотрели несколько несложных способов ускорить Pandas через jit-компиляцию и использование нескольких ядер с помощью таких инструментов как Numba и Pandarallel. В этот раз мы поговорим о более мощных инструментах, с помощью которых можно не только ускорить pandas, но и кластеризовать его, таким образом позволив обрабатывать большие данные.

     26.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Твой первый шаг в Data Science. Титаник

Я считаю, что бОльшее количество дел мы бы могли совершать, если бы нам предоставляли пошаговые инструкции, которые скажут что и как делать. Сам же вспоминаю в своей жизни такие моменты, когда не мог начаться какое-то дело из-за того, что было просто сложно понять, с чего нужно начинать. Быть может, когда-то давно в интернете ты увидел слова «Data Science» и решил, что тебе до этого далеко, а люди, которые этим занимаются где-то там, в другом мире. Так нет же, они прямо здесь. И, возможно, благодаря людям из этой сферы тебе в ленту попала статья. Существует полно курсов, которые помогут тебе освоится с этим ремеслом, здесь же я помогу тебе сделать первый шаг.

Ну что, ты готов? Сразу скажу, что тебе придется знать Python 3, поскольку его я буду использовать здесь. А также советую заранее установить на Jupyter Notebook или посмотреть, как использовать google colab.

     26.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Python.org рекомендует: Программирование для НЕпрограммистов

Предлагаем вашему вниманию подборку материалов от python.org о том, с чего начать первые шаги в программировании. Если Вы никогда не занимались программированием раньше, эти материалы для вас. Данные туториалы не предполагают, что у вас есть какой-то опыт. (Если у вас уже есть опыт программирования, посетите Beginners Guide).

     26.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Оптимизация запросов Django ORM

Оригинальная статья: Rocio Aramberri – Optimizing Django ORM Queries

Django ORM (Object Relational Mapping) – одна из самых мощных функций Django. Благодаря ей мы можем взаимодействовать с базой данных, используя код Python вместо SQL.

     25.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

6 способов значительно ускорить pandas с помощью пары строк кода. Часть 1

В этой статье я расскажу о шести инструментах, способных значительно ускорить ваш pandas код. Инструменты я собрал по одному принципу — простота интеграции в существующую кодовую базу. Для большинства инструментов вам достаточно установить модуль и добавить пару строк кода.

     25.05.2020       Выпуск 336 (25.05.2020 - 31.05.2020)       Статьи

Шпаргалка по визуализации данных в Python с помощью Plotly

В этой простыне все примеры разобраны от совсем простых к более сложным, так что разработчикам с опытом будет скучно. Так же эта «шпаргалка» не заменит на 100% примеры из документации.

     24.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи
     23.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Лемматизируй это быстрее (PyMorphy2, PyMystem3 и немного магии)

При обработке естественного языка требуется предварительная подготовка документов, и одним из способов является лемматизация – приведение всех слов текста к их нормальным формам с учетом контекста.

Недавно мы столкнулись с проблемой больших временных затрат на этот процесс. В конкретной задаче было более 100000 документов, средняя длина которых около 1000 символов, и требовалось реализовать обработку на обычном локальном компьютере, а не на нашем сервере для вычислений. Решение на просторах интернета мы найти не смогли, но нашли его сами, и я хотел бы поделиться — продемонстрировать сравнительный анализ двух наиболее популярных библиотек по лемматизации в этой статье.

     22.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Как сделать тематическое моделирование форума быстро или что беспокоит людей с целиакией

В данной статье я расскажу и покажу на примере, о том, как человек с минимальным Data Science опытом, смог собрать данные из форума и сделать тематическое моделирование постов с использованием LDA модели, и выявил наболевшие темы людей с глютеновой непереносимостью.

     22.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

3D ML. Часть 1: формы представления 3D-данных

Сегодня появляется все больше 3D датасетов и задач, связанных с 3D данными. Это связано с развитием робототехники и машинного зрения, технологий виртуальной и дополненной реальности, технологий медицинского и промышленного сканирования. Алгоритмы машинного обучения помогают решать сложные задачи, в которых необходимо классифицировать трехмерные объекты, восстанавливать недостающую информацию о таких объектах, или же порождать новые. Несмотря на достигнутые успехи, в области 3D ML остаются нерешенными еще очень много задач, и эта серия заметок призвана популяризировать направление среди русскоязычного сообщества.

     22.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Асинхронные задания в Django с Celery

Если в вашем приложении есть какой-то длительный процесс, вы можете обрабатывать его не в стандартном потоке запросов/ответов, а в фоновом режиме.

Сегодня мы поговорим о процессе настройки и конфигурирования Celery и Redis для обработки длительных процессов в приложении на Django, чтобы решать такие задачи. Также мы воспользуемся Docker и Docker Compose, чтобы связать все части вместе, и рассмотрим, как тестировать задания Celery с помощью модульных и интеграционных тестов.

     22.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Как выучиться на Data Scientist: наиболее востребованные технические навыки

Какие технические знания становятся наиболее популярными у работодателей, а какие теряют свою популярность.

     22.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Интеграция .pre-commit hook в Django проект

Для начала пару слов, о том что такое в целом хуки (hooks) и для чего они могут быть нужны. Git «из коробки» предоставляет инструмент, который умеет запускать ваши скрипты при наступлении какого либо события (к примеру пуш на сервер и т.п.)

.pre-commit это удобная надстройка над дефолтным git pre-commit hook, которая запускает скрипты описанные в .pre-commit-config.yaml перед созданием коммита. В теории звучит просто, перейдем к практике.

     21.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

[Перевод] Высокоскоростной Apache Parquet на Python с Apache Arrow

Дизайн: высокопроизводительные колоночные данные в Python.
C++ библиотеки Apache Arrow и Parquet являются вспомогательными технологиями, которые изначально проектировались нами для согласованной совместной работы.

Одной из основных целей Apache Arrow является создание эффективного межоперационного уровня транспортировки колоночной памяти.

     21.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Celery + asyncio

Хочу рассказать, как я решал проблему эффективного конкурентного исполнения asyncio задач в Celery.

     20.05.2020       Выпуск 335 (18.05.2020 - 24.05.2020)       Статьи

Бизнес-эксперт и программирование. Совмещать нельзя разделять


Вообще же, про data driven легко говорить и кайфово это реализовывать в компаниях, в которых большинство сотрудников являются power users, то есть легко напишут запрос к базе, не отрываясь от заваривания чая, а в голове у них есть вопросы и задачи, которые можно решить только при наличии технологии Big Data.