IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте авторский блог

     24.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Принимаем на работу брокера для Celery: подбор, аджаст и выкатка

У Яндекса много самописных сервисов для внутренних задач: Яндекс.Формы, Яндекс.Диск, трекер, календарь. Со временем их решили использовать не только внутри компании, но и за ее пределами. Так появилась платформа Яндекс.Коннект.

Большинство сервисов Коннекта построено на Python V3. В качестве web-фреймворка используется Django, реже Flask и Tornado, а новые чаще пишутся на FastAPI. Сервисы, как и базы PostgreSQL, MySQL и MongoDB, живут в облаке. В качестве очереди сообщений почти везде используется Celery с MongoDB в качестве брокера. Он и стал проблемой.

     23.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Как автоматизировать сбор статистики из Яндекс.Дзен при помощи кода

У Яндекс.Дзен нет готового API, чтобы агрегировать статистику привычным для аналитиков и маркетологов образом. Чтобы собрать данные, нужно пройти 8 шагов: зайти на zen.yandex.ru, перейти в кабинет, затем в раздел «Статистика», потом на вкладку «Кампании», выбрать период и нажать на «Отчеты». Затем в сформировавшихся отчете Excel перейти на вкладку «Статистика кампаний по дням», выбрать нужную кампанию и создать сводную таблицу.

     22.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

ETL в задаче анализа данных для тех, кто не любит кофе и курилку

В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.

     20.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Специалисты по анализу данных часто оценивают свои прогностические модели с точки зрения точности и погрешности, но редко спрашивают себя:

«Способна ли моя модель спрогнозировать реальные вероятности?»

Однако точная оценка вероятности чрезвычайно ценна с точки зрения бизнеса (иногда она даже ценнее погрешности). Хотите пример?

     19.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Finereader, Tesseract и Easyocr или нуджно ли срочно менять инструмент для OCR

По сравнению со старшими товарищами, EasyOCR очень молодой проект, но с большими амбициями. В статье приводится сравнение качества работы, удобства работы, особенности установки и производительности трёх инструментов.

Одна из популярных задач в аудиторской практике – распознавание текста с документов. Казалось бы, инструменты для решения этой задачи давно известны, всё работает и ничего больше особо и не хочется: бесплатно и руками – Tesseract, платно и легко в использовании – FineReader.

     17.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Структура + предположения > ML? Моделирование продаж байесовскими методами

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок. ​

     16.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Functools – сила функций высшего порядка в Python

В стандартной библиотеке Python есть множество замечательных модулей, которые помогают делать ваш код чище и проще, и functools определенно является одним из них. В этом модуле есть множество полезных функций высшего порядка, которые можно использовать для кэширования, перегрузки, создания декораторов и в целом для того, чтобы делать код более функциональным, поэтому давайте отправимся на экскурсию по этому модулю и посмотрим, что он может нам предложить.

     16.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Как устроен Domain-Driven Design

Многие проекты на Django начинаются просто: есть база данных и к приложению, которое крутится на сервере, идут обращения. Например, так начиналась Dodo IS (информационная система компании Додо Пицца, где работал автор сегодняшней статьи). Но если использовать Django из коробки, можно натворить много бед и встретить пачку антипаттернов. Возможно, вы встречали такое на старых legacy-проектах.

     16.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

В шоке от цен на авиабилеты по России: как летать дешевле

Люди делятся на два типа: одни летают за тысячу рублей из Питера во Владивосток, другие сутками скрупулезно высчитывают маршруты через Казахстан, отказываются от багажа, соглашаются на микро-кресла и в итоге все равно получают космический ценник.

Почему так происходит, как формируются цены на авиабилеты и как в итоге покупать их дешевле — рассказываю под катом.

     16.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Как я боролся с анти-читом

Насколько мне известно, в большинстве русскоязычных тестировщиков скорости печати используется метрика CPM, наткнувшись на следующее видео, мне стало интересно посмотреть на свои показатели метрики WPM.

По окончанию тестирования пользователю показывается результат написанный на картинке. И мне она показалась не совсем корректной.

     15.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Поиск адресов в «испорченных» данных

Для проведения проверки мне необходимо было установить адреса нескольких сотен объектов недвижимости. Проблема в том, что адреса были написаны в разных частях документов, документы имели различные форматы, и сам адрес также мог быть написан разнообразными способами.

     15.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Владивосток, оползни и логистическая регрессия

27-28 августа 2019 года во Владивостоке и Приморском крае произошли массовые оползни. К счастью, обошлось без жертв. Однако, материальные потери оказались существенными: разбитые автомобили, перекрытые дороги, поврежденные здания и детские площадки. Оползни сошли в момент прохождения мощного циклона с обильными дождями. Мы робко предположили что "осадки виновны", распаковали методы классической статистики и приступили к исследованию.

     14.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Видео

Moscow Python Podcast. Python в банковской сфере (level: all)

В гостях у Moscow Python Podcast разработчик в Raiffeisen Bank Влад Лоухин. Поговорили с Владом о том, что Python делает в банке, специфике Python в банковской сфере и о многом другом.

     14.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Cross-Fold Generation или как генерировать длинные последовательности с ruGPT-3

RuGPT-3 - AI-модель для русского языка, которая умеет писать тексты. Она может генерировать истории, стихи и новости, которые люди не могут отличить от настоящих. Похожая модель лежит в основе Балаболы от Яндекса. В этой статье мы описываем способ генерации длинных текстов без потери смысла на примере модели ruGPT-3 Large. Мы назвали этот метод Cross-Fold Generation. С ним можно генерировать последовательности более 2000 токенов с сохранением идеи текста.

     14.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Заглянем в будущее Python

Мы пообщались с двумя людьми, от которых непосредственно зависит будущее Python. На наши вопросы ответили Core-developer community on Google Cloud Дастин Инграм и Director at Python Software Foundation Кэрол Виллинг. Их ответы о том, чего не хватает языку и как он будет развиваться дальше, вы узнаете, заглянув под кат.

     13.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

3D моделирование в Python

Допустим, вам потребовалось на языке программирования python, построить трёхмерную модель некоторого объекта, затем визуализировать его, или подготовить файл для печати на 3D принтере. Существует несколько библиотек, помогающих в решении этих задач. Поговорим о том, как строить трёхмерные модели из точек, граней и примитивов в python. Как выполнять элементарные приемы 3D моделирования: перемещение, поворот, объединение, вычитание и другие.

     12.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Пять возможностей Python, которые вы должны знать!

Я перечислил пять возможностей Python, которые разработчики должны использовать для улучшения своего кода и экономии времени.

     12.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

DataScience Digest — 12.08.21

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning.

     12.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Анализ аудио. Идентификация голоса

Реалии современного мир таковы, что аналитику всё чаще приходится прибегать к помощи новейших алгоритмов машинного обучения для выявления тех или иных отклонений в работе исследуемой системы. Наибольшей востребованностью пользуются алгоритмы компьютерного зрения для обработки фото и видео информации, а также техники работы с естественными языками для анализа текстов. Однако не стоит забывать о такой важной сфере, как работа с аудио, о которой и пойдет речь в этой статье.

     12.08.2021       Выпуск 399 (09.08.2021 - 15.08.2021)       Статьи

Парсинг Instagram в промышленных масштабах

В декабре 2020 года я завершил работать в научном институте и сразу же увлёкся задачей добычи данных из соцсетей, в частности из Инстаграма. Прежде я работал только с готовыми данными, поэтому мне всегда было интересно, как эти данные можно добывать. За несколько дней до Нового Года я написал достаточно базовую статью про то как парсить Инст. В первых числах января мне написал заказчик и попросил сделать для него масштабный парсер инстаграма, который был бы способен делать более 10.000 запросов в сутки.