IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
консультируем про IT, Python

     14.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Разработка системы заметок с нуля. Часть 3: знакомство с Neo4j, работа над микросервисами CategoryService и APIService

Мы продолжаем разрабатывать систему заметок с нуля. В третьей части серии материалов мы познакомимся с графовой базой Neo4j, напишем CategoryService и реализуем клиента к новому сервису в APIService.

     14.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Поиск и обработка информации на файловых ресурсах

Начнем с точки входа в приложение.  Чтобы инструмент удобно было использовать, напишем приложение с командным интерфейсом. Перед началом работы также стоит создать переменное окружение и активировать его.

     13.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Прогнозируем сервис оборудования … по истории Service Desk

Попытаемся спрогнозировать запросы на обслуживание оборудования, по истории запросов в Service Desk. Имеется однотипное оборудование компании, в разных регионах, например, станки, или сервера. Имеется департамент сервиса, который выполняет заявки на обслуживание серверов: почистить, заменить деталь, обновить софт. Имеется Service Desk система, в которой ведется история этих заявок, за несколько лет.

     13.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Частотный биграммный анализ на Python

Понадобилось мне для одного проекта, о котором хотелось бы отдельно написать через недельку, узнать частотность (как базовую, так и парную) буквенных символов в русском и английском языках.

     13.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Пишем свой Google, или асинхронный краулер с rate limits на Python

Сегодня расскажу, как написать асинхронный краулер. Такая задача часто встречается на практике, когда нужно реализовать периодическую синхронизацию/обкачку между сервисами. 

     13.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Создайте средство проверки на плагиат с помощью машинного обучения

Используя машинное обучение, мы можем создать нашу собственную программу проверки на плагиат, которая выполняет поиск украденного контента в огромной базе данных. В этой статье мы сделаем  демонстрационное приложение для этой цели.

     12.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Хардкорная разработка под Телеграм. Бот-модератор своими руками. Часть 2

Вот такой я коварный: пообещал продолжение туториала и ничего не публиковал несколько месяцев. Исправляюсь.

Первая часть тут.

Полный код второй части здесь.

     12.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Как я сжимал модель fastText для реальной задачи в 80 раз в 2021 году

FastText — это отличное решение для предоставления готовых векторных представлений слов, для решения различных задач в области ML и NLP. Но основным недостатком данных моделей является, то что на текущий момент обученная модель FastText на русскоязычном корпусе текстов Википедии занимает немногим более 16Гигабайт, что в значительной мере сужает возможности использования данной технологией.

     12.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Django Admin с миллионами записей — 11 практик оптимизаций для начинающих

Django — самый популярный Python web-framework. За больше чем 10 лет оброс огромным слоем возможностей. Среди них можно выделить — Django Admin — это готовый CRUDL интерфейс с поиском, фильтрами и хитрыми настройками. Каждый раз стартуя проект на Django, удивляюсь насколько круто иметь админку — web интерфейс просмотра данных. Да еще и бесплатно. Каждый раз поддерживая проект на Django, удивляюсь, как же сложно поддерживать админку в рабочем состоянии. В этой статье я постараюсь привести 11 практик, которые позволят избегать тормозов админки максимально долго.

     12.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

SQL в SQLAlchemy

Меня зовут Алексей Казаков, я техлид команды «Клиентские коммуникации» в Домклик. По моему опыту подавляющее большинство приложений, взаимодействующих с базой данных, использовали для этого Object Relational Mapper. В этой статье я продолжу знакомить вас с популярными ORM, которые встречались мне в продовых проектах. В прошлый раз мы рассматривали Django ORM , а сегодня на очереди всемогущий SQLAlchemy.

     12.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Wagtail — лучшая CMS на python в нашей галактике

Wagtail - это популярная CMS на основе Django. Django предоставляет огромные возможности - с его помощью созданы не только сайты, но и, например, популярный веб-сервис комментариев disqus, веб-сервис хранения git репозиториев bitbucket и многое другое. На django можно создать все что угодно.

 

     11.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

ETL-пайплайны на Airflow: Хороший, Плохой, Злой

Airflow это популярная опенсорсная платформа управления задачами. В частности его используют для построения ETL-пайплайнов. Например, мне доводилось переливать данные между базами данных, хранилищами и озерами данных с его помощью. А также я использовал его для препроцессинга данных для моделей машинного обучения. Но так ли подходит Airflow для ETL на сегодняшний день?

     11.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Веб приложение для анализа и визуализации выборов в Государственную Думу в 2021

Выборы прошли 17-19 сентября, и новости о них постепенно уходят из повестки. Однако, результаты выборов - это не только таблица с итоговым процентом голосов за партии и кандидатов. Это большой массив данных, который был сформирован при участии миллионов людей. Эти данные содержат в себе тысячи историй, которые не расскажет итоговая таблица.

 

     11.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи
     11.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Как понять ROC-кривые с помощью Python

Если вы погуглите ROC curve machine learning, то Википедия выдаст вам такой ответ: Кривая рабочих характеристик приёмника, или ROC-кривая, представляет собой график функции, который иллюстрирует диагностические возможности системы двоичного классификатора при изменении её порога распознавания.

     11.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Выбираем логин на Яндекс.Почте

Много лет назад я зарегистрировал себе несколько трех- и четырехсимвольных адресов на Яндекс.Почте. Они оказались очень удобными, потому что их легко писать и диктовать, особенно вместе с доменом ya.ru.

     11.10.2021       Выпуск 408 (11.10.2021 - 17.10.2021)       Статьи

Разбираемся с параллельными и конкурентными вычислениями в Python

Я собираюсь рассказать историю о еде, раскрывающую различные возможности конкурентного и параллельного выполнения кода в Python.
 

     10.10.2021       Выпуск 407 (04.10.2021 - 10.10.2021)       Статьи

Нейросети для Natural Language Inference: логические умозаключения на русском языке

NLI (natural language inference) – это задача автоматического определения логической связи между текстами. Обычно она формулируется так: для двух утверждений A и B надо выяснить, следует ли B из A. Эта задача сложная, потому что она требует хорошо понимать смысл текстов. Эта задача полезная, потому что "понимательную" способность модели можно эксплуатировать для прикладных задач типа классификации текстов. Иногда такая классификация неплохо работает даже без обучающей выборки!