IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
и сделали Тренажер IT-инцидентов для DevOps/SRE

     26.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Создание приложения для анализа данных машинного обучения

Нейронные сети очень мощны для выполнения предиктивного анализа и решения аналитических задач. Они широко используются для классификации данных, чтобы обнаруживать закономерности и делать прогнозы. Бизнес-кейсы варьируются от классификации и защиты данных клиентов до классификации текста, поведения потребителей и многих других задач.

 

     26.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Low-Level Cache API in Django

This article looks at how to use the low-level cache API in Django.

     25.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др.

Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы и может повысить качество классификации (или кластеризации). Предлагаем разобраться, как можно получить и использовать координаты именованных сущностей в документе.

     25.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Пишем генератор API тестов и данных для них

Каждый день мы пишем и актуализируем большое количество тестов для API. Поэтому сегодня я хочу обсудить тему автоматической генерации таких тестов и поделиться с сообществом нашими решениями и опытом.

Для начала давайте подумаем, что приходит вам в голову, когда вы слышите слово «автотесты».

     25.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи
     24.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Задача, которую предлагали разработчикам на собеседованиях в Reddit: разбор и решение от сотрудника компании

Впервые я столкнулся с техническими собеседованиями еще в 2012 году, когда искал свою первую работу в IT. Я выслушал условия задачи, нацарапал решение на доске, ответил на несколько вопросов и ушел, весь перепачканный черный маркером. В то время я совершенно не представлял, как выглядит весь этот процесс с другой стороны; всё, что мне оставалось – в тревоге ждать результатов и надеяться, что я вписался в неизвестные мне критерии тех, кто проводил собеседование.

     24.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Принимаем на работу брокера для Celery: подбор, аджаст и выкатка

У Яндекса много самописных сервисов для внутренних задач: Яндекс.Формы, Яндекс.Диск, трекер, календарь. Со временем их решили использовать не только внутри компании, но и за ее пределами. Так появилась платформа Яндекс.Коннект.

Большинство сервисов Коннекта построено на Python V3. В качестве web-фреймворка используется Django, реже Flask и Tornado, а новые чаще пишутся на FastAPI. Сервисы, как и базы PostgreSQL, MySQL и MongoDB, живут в облаке. В качестве очереди сообщений почти везде используется Celery с MongoDB в качестве брокера. Он и стал проблемой.

     23.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи
     23.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи
     23.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи

Как автоматизировать сбор статистики из Яндекс.Дзен при помощи кода

У Яндекс.Дзен нет готового API, чтобы агрегировать статистику привычным для аналитиков и маркетологов образом. Чтобы собрать данные, нужно пройти 8 шагов: зайти на zen.yandex.ru, перейти в кабинет, затем в раздел «Статистика», потом на вкладку «Кампании», выбрать период и нажать на «Отчеты». Затем в сформировавшихся отчете Excel перейти на вкладку «Статистика кампаний по дням», выбрать нужную кампанию и создать сводную таблицу.

     22.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

ETL в задаче анализа данных для тех, кто не любит кофе и курилку

В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.

     22.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Сводка новостей от pythonz 15.08.2021 — 22.08.2021

А теперь о том, что происходило в последнее время на других ресурсах.

     23.08.2021       Выпуск 401 (23.08.2021 - 29.08.2021)       Статьи
     22.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи
     20.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Специалисты по анализу данных часто оценивают свои прогностические модели с точки зрения точности и погрешности, но редко спрашивают себя:

«Способна ли моя модель спрогнозировать реальные вероятности?»

Однако точная оценка вероятности чрезвычайно ценна с точки зрения бизнеса (иногда она даже ценнее погрешности). Хотите пример?

     19.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Finereader, Tesseract и Easyocr или нуджно ли срочно менять инструмент для OCR

По сравнению со старшими товарищами, EasyOCR очень молодой проект, но с большими амбициями. В статье приводится сравнение качества работы, удобства работы, особенности установки и производительности трёх инструментов.

Одна из популярных задач в аудиторской практике – распознавание текста с документов. Казалось бы, инструменты для решения этой задачи давно известны, всё работает и ничего больше особо и не хочется: бесплатно и руками – Tesseract, платно и легко в использовании – FineReader.

     17.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Структура + предположения > ML? Моделирование продаж байесовскими методами

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок. ​

     16.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Functools – сила функций высшего порядка в Python

В стандартной библиотеке Python есть множество замечательных модулей, которые помогают делать ваш код чище и проще, и functools определенно является одним из них. В этом модуле есть множество полезных функций высшего порядка, которые можно использовать для кэширования, перегрузки, создания декораторов и в целом для того, чтобы делать код более функциональным, поэтому давайте отправимся на экскурсию по этому модулю и посмотрим, что он может нам предложить.

     16.08.2021       Выпуск 400 (16.08.2021 - 22.08.2021)       Статьи

Как устроен Domain-Driven Design

Многие проекты на Django начинаются просто: есть база данных и к приложению, которое крутится на сервере, идут обращения. Например, так начиналась Dodo IS (информационная система компании Додо Пицца, где работал автор сегодняшней статьи). Но если использовать Django из коробки, можно натворить много бед и встретить пачку антипаттернов. Возможно, вы встречали такое на старых legacy-проектах.