IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте авторский блог

     14.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Как мы в СберМаркете боремся с товарами-призраками

В офлайне покупатель видит полки магазина и сам может понять, чего нет в наличии, а что можно положить в корзину и купить прямо сейчас. В онлайне«‎глазами»‎ пользователя становится каталог: он всегда должен быть актуальным. 

 

     14.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Мы опубликовали современный Voice Activity Detector и не только

Для решения задачи детекции голоса (Voice Activity Detector, VAD) существует довольно популярный инструмент от Google — webRTC VAD. Он нетребовательный по ресурсам и компактный, но его основной минус состоит в неустойчивости к шуму, большом числе ложноположительных срабатываний и невозможности тонкой настройки. Понятно, что если переформулировать задачу не в детекцию голоса, а в детекцию тишины (тишина — это отсутствие и голоса и шума), то она решается весьма тривиальными способами (порогом по энергии, например), но с теми же минусами и ограничениями. Что самое неприятное — зачастую такие решения являются хрупкими и какие-то хардкодные пороги не переносятся на другие домены.

     14.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Скрапинг современных веб-сайтов без headless-браузеров

Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

     14.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Соревнование KAGGLE по определению риска дефолта заемщика. Разработка признаков

Соревнования Kaggle с использованием структурированных данных очень часто выигрывают специалисты по разработке признаков: побеждают те, кто может создавать наиболее полезные признаки из данных. Это представляет собой одну из закономерностей в машинном обучении: разработка признаков дает больший возврат инвестиций, чем построение модели и настройка гиперпараметров. Как говорит один из ведущих ученых в области машинного обучения – Эндрю Ын: «Прикладное машинное обучение — это в основном разработка признаков».

 

     13.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи
     12.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут

Пока киберпанк еще не настолько вошел в нашу жизнь, и нейроинтерфейсы далеки от идеала, первым этапом на пути к будущему манипуляторов могут стать LiDAR. Поэтому, чтобы не скучать на праздниках, я решил немного пофантазировать на тему средств управления компьютером и, предположительно, любым устройством, вплоть до экскаватора, космического корабля, дрона или кухонной плиты.

     12.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Стилометрия, или как отличить Акунина от Булгакова с помощью 20 строк кода?

Довольно интересным направлением "прикладной статистики" и NLP (Natural Languages Processing а вовсе не то что многие сейчас подумали) является анализ текста. Появилось это направление задолго до компьютеров, и имело вполне практическую цель: определить автора того или иного текста. С помощью ПК это впрочем, гораздо легче и удобнее, да и результаты получаются весьма интересные. Посмотрим, какие закономерности можно выявить с помощью совсем простого кода на Python.

     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи
     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Подборка статей о машинном обучении: кейсы, гайды и исследования за декабрь 2020

Последний месяц года нельзя назвать удачным моментом для масштабных анонсов, так как большинство переходит в режим “давайте уже после праздников”, но судя по этой насыщенной подборке в области машинного обучения, и в декабре во всю кипела работа. Поэтому с небольшой задержкой встречайте двенадцатый выпуск дайджеста, в котором мы расскажем о самом важном, что произошло в ML в конце 2020 года.

     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Чистый Cython VS nvc++: жжем металлические пластины на GPU для сравнения скорости

Все знают, что Python не блещет скоростью сам по себе. На мой взгляд язык прекрасен своей читабельностью, но основная ниша его применения там, где вы большую часть времени ожидаете ввода/вывода каких-то данных. Условно, вы можете написать суперпроизводительный код на Rust или С, но 99% времени он будет просто ждать.

Возьмем две задачи: сортировку чисел и метод Якоби, которым будем рассчитывать нагрев металлической пластины.

     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Клиент-серверный IPC на multiprocessing

Статья отражает личный опыт разработки CLI приложения для Linux.

В ней рассмотрен способ выполнения привилегированных системных вызовов процессом суперпользователя по запросам управляющей программы через строго описанный API.

Исходный код написан на Python для реального коммерческого приложения, но для публикации абстрагирован от конкретных задач.

     10.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Анимации градиентного спуска и ландшафта потерь нейронных сетей

Во время изучения различных алгоритмов машинного обучения я наткнулся на ландшафт потерь нейронных сетей с их горными территориями, хребтами и долинами. Эти ландшафты потерь сильно отличались от выпуклых и гладких ландшафтов потерь, с которыми я столкнулся при использовании линейной и логистической регрессий. Здесь мы создадим ландшафты потерь нейронных сетей и анимированного градиентного спуска с помощью датасета MNIST.

     09.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Как быть билингвом в Data Science

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка.

     08.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Нейросети в большом городе. Разбираемся, как они помогают идентифицировать людей, и запускаем собственную нейросеть

Алгоритмы по детекции лиц плотно вошли в нашу жизнь, хотя и не все это замечают. Началось всё в 2015 году со сферы развлечений. Shapchat купил стартап Looksery, в котором разрабатывали AR-фильтры. Приложение распознавало лицо человека на фотографии и накладывало на него весёлые рожицы. Чуть позже, в начале 2016 года, Facebook купил белорусский стартап MSQRD и запустил маски в Facebook Stories. Но это можно считать только обкаткой таких технологий.

В этой статье можно прочитать, как используются системы идентификации, узнать про слабые места компьютерных алгоритмов, а также попробовать запустить нейронную сеть по детекции и идентификации лиц на собственном компьютере.

     08.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Взламываем Ball Sort Puzzle

Ball Sort Puzzle — это популярная мобильная игра на IOS/Android. Суть её заключается в перестановке шариков до тех пор, пока в колбах не будут шарики одного цвета. При этом шарик можно перетаскивать либо в пустую колбу, либо на такой же шарик.

 

     07.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

Модели глубокого обучения улучшаются с увеличением количества данных и параметров. Даже с последней моделью GPT-3 от Open AI, которая использует 175 миллиардов параметров, нам ещё предстоит увидеть плато роста количества параметров.

     06.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Генерация дефолтных Github аватарок

В данной статье я покажу и расскажу, как можно сгенерировать аватарки как на Github.

     06.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи