IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Twitter

     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Tesseract vs таблицы. Распознавание документов. Часть 2

В данном посте попытаюсь описать как я пытался ускорить свой API для распознавание документов с помощью tesseract, каких результатов смог достичь.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

Как известно, есть множество различных систем хранения. Большинство из них рассчитаны на определенный объем данных. Если данных больше, то система хранения начинает вести себя непредсказуемо. Этих проблем лишены системы на базе Hadoop, основанные на файловой системе HDFS. Подобные не слишком часто используются в веб-разработке, но незаменимы для анализа данных и построения отчетов.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Оптимизация рабочего процесса при помощи fzf

Работа в оболочке включает в себя выполнение одних и тех же команд снова и снова; что меняется, так это порядок выполнения команд и их параметры. Один из способов упростить рабочий процесс — найти паттерны выполнения команд с аргументами и обернуть их в небольшие скрипты. Такой подход часто оказывается полезным, сильно упрощая работу; другой способ оптимизации рабочего процесса — понять, как добавляются параметры, и попробовать упростить сам ввод. В этом посте я расскажу о втором подходе.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Нейродайджест: главное из области машинного обучения за март 2021

В марте было особенно много новостей про применение самообучения в области компьютерного зрения. Главная проблема, которую пытаются решить самообучающиеся модели — выполнять задачи, не полагаясь на тщательно подобранные и помеченные наборы данных. FAIR и Microsoft представили сразу несколько исследований и инструментов на эту тему.

     03.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Сделать робота на raspberry pi, обновленный pi-tank. Часть 2. Софт

Вторая часть полностью посвящена описанию программного обеспечения, используемого на роботе.

Так как разработанный робот (pi-tank) по большому счету рассчитан на начинающих роботостроителей, то все будет максимально упрощено, а в конце статьи будет приложен образ (image) для raspberry pi для самостоятельного дальнейшего изучения.

     03.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Поиск изображений

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Осваиваем анализ лидарных данных и измеряем дорожные знаки

Сегодня мы хотели бы поделиться с вами нашим опытом анализа лидарных облаков. В заметке расскажем: 

  • какими инструментами и библиотеками можно пользоваться для анализа и обработки лидарных данных;

  • рассмотрим практический пример анализа лидарных облаков, полученных с лидарного комплекса, установленного на автомобиле;

  • попробуем применить стандартные библиотеки и техники для анализа и визуализации данных.

     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

10 мощных функций из стандартной библиотеки Python

Сегодня я пишу о доступных функциях в стандартной библиотеки и расскажу про их применение.

     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Python & EEL. Делаем просто на Python’е и красиво на JS

В этой статья я хочу показать на небольшом примере, как же все таки создать простое и красивое десктопное приложение на HTML, CSS, JS и Python. В качестве библиотеки для связи всех компонентов будем использовать EEL.

     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Аспекты учета и поиска геоинформационных объектов с задействованием MongoDB

Геоинформация - это любые сведения, отражающие расположение, форму и размеры объекта (далее - геообъект). Ее учет ведется в картографии, геологии, метеорологии, землеустройстве, экологии, муниципальном управлении, транспорте, экономике, обороне и многих других областях. Геоинформация является неотъемлемой частью так называемых Больших данных, что приводит к необходимости разработки средств ее анализа и визуализации.

     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи
     01.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Аналитика возраста воздушного флота российских авиакомпаний

Сегодня вашему вниманию представлена исследование(аналитика) возраста воздушного флота российских авиакомпаний, представленных на российском рынке для осуществления коммерческих перевозок. Полный список можно посмотреть тут.

     01.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Яндекс-капча vs tesseract

Речь пойдет об относительно новом творении в области капча-производства, новой яндекс-капче. Поищем слабые места, пролезем в эти слабые места и осмотримся там. Также подумаем на тему — помогает ли программа пакету распознавания текста на картинке — Tesseract — стать лучше.

     01.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Перехват и анализ сетевого трафика с помощью библиотеки pcap

Сегодня многие крупные компании для увеличения производительности открывают доступ сотрудников с рабочих компьютеров в Интернет. Однако не все сотрудники используют его продуктивно и безопасно для рабочих сетей, по этой причине требуется контроль доступа.

     01.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи
     31.03.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи
     30.03.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Telegram bot + ML: универсальный алгоритм совмещения

Пишу модели для кейсов на Kaggle, изучаю чужие и вдохновляюсь. Все статьи с описанием того, как внедрить их в веб-проект, для меня, школьника Junior Frontend'а, дают overhead сложной инфы, я же хочу просто "позаимствовать" любую крутую модель и быстро внедрить в свой сервис. Руки зачесались придумать универсальный алгоритм, так что решение было найдено быстро.

     30.03.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

DialoGPT на русском

В конце 2019 года вышла одна из работ по GPT-2. Инженеры из Microsoft обучили стандартную GPT-2 вести диалог. Тогда, прочитав их статью, я очень впечатлился и поставил себе цель обучить такую же модель, но уже на русском языке.

Время шло, и через год Сбер сделал очень хорошее дело, выложив в открытый доступ несколько небольших вариантов моделей GPT-3, обученных на русском языке.

     30.03.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Polymorphism in Python

In this tutorial, we will learn about polymorphism, different types of polymorphism, and how we can implement them in Python with the help of examples.

     30.03.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Process Mining как эволюция «научного управления» — и наша открытая библиотека для анализа

Process Mining – это мост между Data Mining и Process Management. Это подход к извлечению, анализу и оптимизации процессов на основе данных из журналов событий (event logs), доступных в информационных системах. Мы разработали и открыли библиотеку, позволяющую быстро и достаточно просто обрабатывать данные информационных систем производства, чтобы находить узкие места и точки неэффективности.