31.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

JSON-Logger для FastAPI

Пошаговая инструкция, как я сделал собственный асинхронный json-logger для FastApi и зачем.

Цель данной статьи и моей личной разработки - написать о том, как я придумал свой собственный и удобный формат json-журналирования специально для компании, в которой я работаю, но не нашел готовых решений для реализации, который позволит мне воплощать очень гибко и удобно некоторые вещи с единым наименованием полей, чтобы логгирование протекало быстро и асинхронно, а также: не заставляло бы меня писать много кода и обойтись одной-двумя библиотеками максимум.

30.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

Google Sheets API + Python. Чтение и запись с Сервисным Аккаунтом Google Cloud

Google Sheet и Sheets API - классный (простой, бесплатный и универсальный) способ организовать хранение и анализ данных получаемых от своего сервиса. При условии что этих данных не то чтобы очень много и поступают они не то чтобы очень часто.

У меня таких задач хватает и решаю я их либо на Python, либо на PHP. Сегодня возьму в руки Python.

30.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

Как достичь максимального счастья в обществе? (теория игр)

Теория игр - это не только об изучении стратегий в играх, таких как шахматы, го или других. Применять теорию игр уже сегодня пытаются в различных областях: в политике, в спорте, в кибернетике, в психологии и многих других местах. Данная наука выполняет математический анализ ситуаций (в которых сталкиваются интересы нескольких сторон, преследующих различные цели), пытаясь формализовать и описать данные ситуации в виде математической модели, определяющей некоторую игру.

30.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

Асинхронный джанго, другой взгляд

Этот текст содержит предложения, как сделать джанго орм (а вместе с ним и сам джанго) асинхронным.

29.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Классификатор методом BallTree поиска k-ближайших соседей на Python

Классификация методом поиска ближайших соседей - относительно простой для понимания метод классификации, суть которого подробно рассматриваться в этой статье не будет.

Метод предполагает наличие алгоритма поиска ближайших соседей. Можно использовать разные алгоритмы. Самый простой, но при этом не эффективный по времени алгоритм - полный перебор всех соседей для поиска ближайших. Существуют так же методы поиска, называемые KDtree и BallTree.

28.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Расставляем ударения с помощью Natasha и Spacy

Представьте себя на месте изучающего русский язык иностранца. Ударение станет одним из ваших самых страшных ночных кошмаров. Во-первых, оно не описывается каким-то простым набором правил, и чаще всего правильное произношение приходится просто запоминать. Во-вторых, оно обычно не обозначается в текстах, что практически сводит на нет относительную близость русской орфографии к произношению - без ударений правильно прочитать текст с незнакомыми словами иностранец все равно не сможет. В-третьих, неправильное ударение сильно меняет фонетический образ слова для русского человека, и из-за одной ошибки вас могут просто не понять.

28.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Python: конфигурация проекта без боли

Расскажу о проделанном пути, чтобы найти идеальный, для моих целей, инструмент конфигурирования проекта и о создании легковесной библиотеки bestconfig, впитавшей в себя преимущества изложенных подходов.

27.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Библиотека СleanAPI: cоздаем микросервис на Python за 30 секунд

Использование микросервисной архитектуры для построения корпоративных приложений взамен традиционной монолитной — популярный тренд в веб-разработке.

Я не ставил целью настоящей статьи познакомить читателей с концепцией микросервисов. Желающим получить общее введение в тему могу порекомендовать заглянуть сюда.

27.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Таблица актуальности фактических данных как архитектурное решение

В этой статье речь пойдёт об архитектуре данных, где необходимо хранить статусы записей, получая информацию об их актуальности.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Анализируем данные с помощью визуализации: рисуем поверх Google Maps

Одна из первых задач, которую мне поручили здесь — проверить качество географических данных. Формально эта задача больше относится к анализу данных, чем к системному анализу. Но меня она очень заинтересовала, ведь требовался не только анализ, но и исследование и, по возможности, реализация решения, а для меня это самое интересное в работе.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Создание приложения для анализа данных машинного обучения

Нейронные сети очень мощны для выполнения предиктивного анализа и решения аналитических задач. Они широко используются для классификации данных, чтобы обнаруживать закономерности и делать прогнозы. Бизнес-кейсы варьируются от классификации и защиты данных клиентов до классификации текста, поведения потребителей и многих других задач.

25.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др.

Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы и может повысить качество классификации (или кластеризации). Предлагаем разобраться, как можно получить и использовать координаты именованных сущностей в документе.

25.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Пишем генератор API тестов и данных для них

Каждый день мы пишем и актуализируем большое количество тестов для API. Поэтому сегодня я хочу обсудить тему автоматической генерации таких тестов и поделиться с сообществом нашими решениями и опытом.

Для начала давайте подумаем, что приходит вам в голову, когда вы слышите слово «автотесты».

24.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Задача, которую предлагали разработчикам на собеседованиях в Reddit: разбор и решение от сотрудника компании

Впервые я столкнулся с техническими собеседованиями еще в 2012 году, когда искал свою первую работу в IT. Я выслушал условия задачи, нацарапал решение на доске, ответил на несколько вопросов и ушел, весь перепачканный черный маркером. В то время я совершенно не представлял, как выглядит весь этот процесс с другой стороны; всё, что мне оставалось – в тревоге ждать результатов и надеяться, что я вписался в неизвестные мне критерии тех, кто проводил собеседование.

24.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Принимаем на работу брокера для Celery: подбор, аджаст и выкатка

У Яндекса много самописных сервисов для внутренних задач: Яндекс.Формы, Яндекс.Диск, трекер, календарь. Со временем их решили использовать не только внутри компании, но и за ее пределами. Так появилась платформа Яндекс.Коннект.

Большинство сервисов Коннекта построено на Python V3. В качестве web-фреймворка используется Django, реже Flask и Tornado, а новые чаще пишутся на FastAPI. Сервисы, как и базы PostgreSQL, MySQL и MongoDB, живут в облаке. В качестве очереди сообщений почти везде используется Celery с MongoDB в качестве брокера. Он и стал проблемой.

23.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Как автоматизировать сбор статистики из Яндекс.Дзен при помощи кода

У Яндекс.Дзен нет готового API, чтобы агрегировать статистику привычным для аналитиков и маркетологов образом. Чтобы собрать данные, нужно пройти 8 шагов: зайти на zen.yandex.ru, перейти в кабинет, затем в раздел «Статистика», потом на вкладку «Кампании», выбрать период и нажать на «Отчеты». Затем в сформировавшихся отчете Excel перейти на вкладку «Статистика кампаний по дням», выбрать нужную кампанию и создать сводную таблицу.

22.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

ETL в задаче анализа данных для тех, кто не любит кофе и курилку

В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.

20.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Специалисты по анализу данных часто оценивают свои прогностические модели с точки зрения точности и погрешности, но редко спрашивают себя:

«Способна ли моя модель спрогнозировать реальные вероятности?»

Однако точная оценка вероятности чрезвычайно ценна с точки зрения бизнеса (иногда она даже ценнее погрешности). Хотите пример?

19.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

Finereader, Tesseract и Easyocr или нуджно ли срочно менять инструмент для OCR

По сравнению со старшими товарищами, EasyOCR очень молодой проект, но с большими амбициями. В статье приводится сравнение качества работы, удобства работы, особенности установки и производительности трёх инструментов.

Одна из популярных задач в аудиторской практике – распознавание текста с документов. Казалось бы, инструменты для решения этой задачи давно известны, всё работает и ничего больше особо и не хочется: бесплатно и руками – Tesseract, платно и легко в использовании – FineReader.

17.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

Структура + предположения > ML? Моделирование продаж байесовскими методами

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок.

Все Только на русском Только на английском

IT-новости про Python, которые стоит знать