27.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Таблица актуальности фактических данных как архитектурное решение

В этой статье речь пойдёт об архитектуре данных, где необходимо хранить статусы записей, получая информацию об их актуальности.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Анализируем данные с помощью визуализации: рисуем поверх Google Maps

Одна из первых задач, которую мне поручили здесь — проверить качество географических данных. Формально эта задача больше относится к анализу данных, чем к системному анализу. Но меня она очень заинтересовала, ведь требовался не только анализ, но и исследование и, по возможности, реализация решения, а для меня это самое интересное в работе.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Создание приложения для анализа данных машинного обучения

Нейронные сети очень мощны для выполнения предиктивного анализа и решения аналитических задач. Они широко используются для классификации данных, чтобы обнаруживать закономерности и делать прогнозы. Бизнес-кейсы варьируются от классификации и защиты данных клиентов до классификации текста, поведения потребителей и многих других задач.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Low-Level Cache API in Django

This article looks at how to use the low-level cache API in Django.

25.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др.

Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы и может повысить качество классификации (или кластеризации). Предлагаем разобраться, как можно получить и использовать координаты именованных сущностей в документе.

25.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Пишем генератор API тестов и данных для них

Каждый день мы пишем и актуализируем большое количество тестов для API. Поэтому сегодня я хочу обсудить тему автоматической генерации таких тестов и поделиться с сообществом нашими решениями и опытом.

Для начала давайте подумаем, что приходит вам в голову, когда вы слышите слово «автотесты».

25.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Application Performance Monitoring AWS Lambda Functions with Sentry

24.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Calculating Spearman's Rank Correlation Coefficient in Python with Pandas

24.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Задача, которую предлагали разработчикам на собеседованиях в Reddit: разбор и решение от сотрудника компании

Впервые я столкнулся с техническими собеседованиями еще в 2012 году, когда искал свою первую работу в IT. Я выслушал условия задачи, нацарапал решение на доске, ответил на несколько вопросов и ушел, весь перепачканный черный маркером. В то время я совершенно не представлял, как выглядит весь этот процесс с другой стороны; всё, что мне оставалось – в тревоге ждать результатов и надеяться, что я вписался в неизвестные мне критерии тех, кто проводил собеседование.

24.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Принимаем на работу брокера для Celery: подбор, аджаст и выкатка

У Яндекса много самописных сервисов для внутренних задач: Яндекс.Формы, Яндекс.Диск, трекер, календарь. Со временем их решили использовать не только внутри компании, но и за ее пределами. Так появилась платформа Яндекс.Коннект.

Большинство сервисов Коннекта построено на Python V3. В качестве web-фреймворка используется Django, реже Flask и Tornado, а новые чаще пишутся на FastAPI. Сервисы, как и базы PostgreSQL, MySQL и MongoDB, живут в облаке. В качестве очереди сообщений почти везде используется Celery с MongoDB в качестве брокера. Он и стал проблемой.

23.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Your First OCR Project with Tesseract and Python

23.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Comparing Datetime with Delorean in Python - With and Without Timezones

23.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Как автоматизировать сбор статистики из Яндекс.Дзен при помощи кода

У Яндекс.Дзен нет готового API, чтобы агрегировать статистику привычным для аналитиков и маркетологов образом. Чтобы собрать данные, нужно пройти 8 шагов: зайти на zen.yandex.ru, перейти в кабинет, затем в раздел «Статистика», потом на вкладку «Кампании», выбрать период и нажать на «Отчеты». Затем в сформировавшихся отчете Excel перейти на вкладку «Статистика кампаний по дням», выбрать нужную кампанию и создать сводную таблицу.

22.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

ETL в задаче анализа данных для тех, кто не любит кофе и курилку

В первую очередь, материал ориентирован на аналитиков, которые манипулируют разумными объемами данных, необходимых для решения практических задач. ETL из Бигдаты в котором перекачиваются сотни Тб ежесуточно живет своей отдельной жизнью.

22.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

Сводка новостей от pythonz 15.08.2021 — 22.08.2021

А теперь о том, что происходило в последнее время на других ресурсах.

23.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Python Datetime Module

22.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

Why I use attrs instead of pydantic

20.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

predict_proba в Python не прогнозирует вероятности (и как с этим бороться)

Специалисты по анализу данных часто оценивают свои прогностические модели с точки зрения точности и погрешности, но редко спрашивают себя:

«Способна ли моя модель спрогнозировать реальные вероятности?»

Однако точная оценка вероятности чрезвычайно ценна с точки зрения бизнеса (иногда она даже ценнее погрешности). Хотите пример?

19.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

Finereader, Tesseract и Easyocr или нуджно ли срочно менять инструмент для OCR

По сравнению со старшими товарищами, EasyOCR очень молодой проект, но с большими амбициями. В статье приводится сравнение качества работы, удобства работы, особенности установки и производительности трёх инструментов.

Одна из популярных задач в аудиторской практике – распознавание текста с документов. Казалось бы, инструменты для решения этой задачи давно известны, всё работает и ничего больше особо и не хочется: бесплатно и руками – Tesseract, платно и легко в использовании – FineReader.

17.08.2021 Выпуск 400 (16.08.2021 - 22.08.2021) Статьи

Структура + предположения > ML? Моделирование продаж байесовскими методами

Не так давно участвовал в проекте, где мы применяли методы байесовского моделирования для ритейлинговой сети. Тема непростая и интересная. Так как проект под NDA, решил на примере похожего гипотетического проекта показать, как мы решали поставленные перед нами задачи.Также подробно расскажу об основах Байесовского моделирования. Ну и бонусом, тем кто дочитает до конца и захочет углубиться в эту тему – «куча» ссылок.

Все Только на русском Только на английском

IT-новости про Python, которые стоит знать