IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Telegram

     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи
     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Сравнение ассортимента блюд трёх ресторанов Санкт-Петербурга

Мне никогда раньше не приходилось иметь дело с парсингом данных из интернета. Обычно все данные для работы (аналитик данных) приходят из выгрузок компании с использованием простого внутреннего интерфейса, либо формируются sql-запросами к таблицам напрямую из хранилища, если нужно что-то более сложное, чем “посмотреть выручку за предыдущий месяц”. 

     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Как сделать полнотекстовую поисковую машину на 150 строках кода Python

Полнотекстовый поиск — неотъемлемая часть нашей жизни. Разыскать нужные материалы в сервисе облачного хранения документов Scribd, найти фильм в Netflix, купить туалетную бумагу на Amazon или отыскать с помощью сервисов Google интересующую информацию в Интернете — наверняка вы сегодня уже не раз отправляли похожие запросы на поиск нужной информации в невообразимых объёмах неструктурированных данных. И что удивительнее всего — несмотря на то что вы осуществляли поиск среди миллионов (или даже миллиардов) записей, вы получали ответ за считанные миллисекунды.

     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Релизы
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Отбор признаков в задачах машинного обучения. Часть 1

Часто наборы данных, с которыми приходится работать, содержат большое количество признаков, число которых может достигать нескольких сотен и даже тысяч. При построении модели машинного обучения не всегда понятно, какие из признаков действительно для неё важны (т.е. имеют связь с целевой переменной), а какие являются избыточными (или шумовыми). Удаление избыточных признаков позволяет лучше понять данные, а также сократить время настройки модели, улучшить её точность и облегчить интерпретируемость.

     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Релизы
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Tesseract vs таблицы. Распознавание документов. Часть 2

В данном посте попытаюсь описать как я пытался ускорить свой API для распознавание документов с помощью tesseract, каких результатов смог достичь.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

Как известно, есть множество различных систем хранения. Большинство из них рассчитаны на определенный объем данных. Если данных больше, то система хранения начинает вести себя непредсказуемо. Этих проблем лишены системы на базе Hadoop, основанные на файловой системе HDFS. Подобные не слишком часто используются в веб-разработке, но незаменимы для анализа данных и построения отчетов.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Оптимизация рабочего процесса при помощи fzf

Работа в оболочке включает в себя выполнение одних и тех же команд снова и снова; что меняется, так это порядок выполнения команд и их параметры. Один из способов упростить рабочий процесс — найти паттерны выполнения команд с аргументами и обернуть их в небольшие скрипты. Такой подход часто оказывается полезным, сильно упрощая работу; другой способ оптимизации рабочего процесса — понять, как добавляются параметры, и попробовать упростить сам ввод. В этом посте я расскажу о втором подходе.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Видео

Moscow Python Podcast. Python и управление инфраструктурой (level: all)

В гостях у Moscow Python Podcast Principal Architect компании Aligned Research Group Николай Марков.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Нейродайджест: главное из области машинного обучения за март 2021

В марте было особенно много новостей про применение самообучения в области компьютерного зрения. Главная проблема, которую пытаются решить самообучающиеся модели — выполнять задачи, не полагаясь на тщательно подобранные и помеченные наборы данных. FAIR и Microsoft представили сразу несколько исследований и инструментов на эту тему.

     03.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Сделать робота на raspberry pi, обновленный pi-tank. Часть 2. Софт

Вторая часть полностью посвящена описанию программного обеспечения, используемого на роботе.

Так как разработанный робот (pi-tank) по большому счету рассчитан на начинающих роботостроителей, то все будет максимально упрощено, а в конце статьи будет приложен образ (image) для raspberry pi для самостоятельного дальнейшего изучения.

     03.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Вопросы и обсуждения
     03.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Поиск изображений

Пытаясь реализовать обратный поиск изображений для своего сайта, я столкнулся с огромным миром поиска изображений. Ниже приведены краткие описания и варианты применения некоторых подходов обратного поиска/поиска похожих изображений.

     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Релизы
     02.04.2021       Выпуск 380 (29.03.2021 - 04.04.2021)       Статьи

Осваиваем анализ лидарных данных и измеряем дорожные знаки

Сегодня мы хотели бы поделиться с вами нашим опытом анализа лидарных облаков. В заметке расскажем: 

  • какими инструментами и библиотеками можно пользоваться для анализа и обработки лидарных данных;

  • рассмотрим практический пример анализа лидарных облаков, полученных с лидарного комплекса, установленного на автомобиле;

  • попробуем применить стандартные библиотеки и техники для анализа и визуализации данных.