IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Telegram

     14.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Скрапинг современных веб-сайтов без headless-браузеров

Многие разработчики считают скрапинг сложной, медленной и неудобной для масштабирования задачей, особенно при работе с headless-браузерами. По моему опыту, можно заниматься скрапингом современных веб-сайтов даже не пользуясь безголовыми браузерами. Это очень простой, быстрый и хорошо масштабируемый процесс.

Для его демонстрации вместо Selenium, Puppeteer или любого другого решения на основе безголовых браузеров мы просто используем запросы на Python. Я объясню, как можно скрапить информацию из публичных API, которые потребляет на фронтэнде большинство современных веб-сайтов.

     14.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Соревнование KAGGLE по определению риска дефолта заемщика. Разработка признаков

Соревнования Kaggle с использованием структурированных данных очень часто выигрывают специалисты по разработке признаков: побеждают те, кто может создавать наиболее полезные признаки из данных. Это представляет собой одну из закономерностей в машинном обучении: разработка признаков дает больший возврат инвестиций, чем построение модели и настройка гиперпараметров. Как говорит один из ведущих ученых в области машинного обучения – Эндрю Ын: «Прикладное машинное обучение — это в основном разработка признаков».

 

     12.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Пора избавляться от мышки или Hand Pose Estimation на базе LiDAR за 30 минут

Пока киберпанк еще не настолько вошел в нашу жизнь, и нейроинтерфейсы далеки от идеала, первым этапом на пути к будущему манипуляторов могут стать LiDAR. Поэтому, чтобы не скучать на праздниках, я решил немного пофантазировать на тему средств управления компьютером и, предположительно, любым устройством, вплоть до экскаватора, космического корабля, дрона или кухонной плиты.

     12.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Стилометрия, или как отличить Акунина от Булгакова с помощью 20 строк кода?

Довольно интересным направлением "прикладной статистики" и NLP (Natural Languages Processing а вовсе не то что многие сейчас подумали) является анализ текста. Появилось это направление задолго до компьютеров, и имело вполне практическую цель: определить автора того или иного текста. С помощью ПК это впрочем, гораздо легче и удобнее, да и результаты получаются весьма интересные. Посмотрим, какие закономерности можно выявить с помощью совсем простого кода на Python.

     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Подборка статей о машинном обучении: кейсы, гайды и исследования за декабрь 2020

Последний месяц года нельзя назвать удачным моментом для масштабных анонсов, так как большинство переходит в режим “давайте уже после праздников”, но судя по этой насыщенной подборке в области машинного обучения, и в декабре во всю кипела работа. Поэтому с небольшой задержкой встречайте двенадцатый выпуск дайджеста, в котором мы расскажем о самом важном, что произошло в ML в конце 2020 года.

     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Чистый Cython VS nvc++: жжем металлические пластины на GPU для сравнения скорости

Все знают, что Python не блещет скоростью сам по себе. На мой взгляд язык прекрасен своей читабельностью, но основная ниша его применения там, где вы большую часть времени ожидаете ввода/вывода каких-то данных. Условно, вы можете написать суперпроизводительный код на Rust или С, но 99% времени он будет просто ждать.

Возьмем две задачи: сортировку чисел и метод Якоби, которым будем рассчитывать нагрев металлической пластины.

     11.01.2021       Выпуск 369 (11.01.2021 - 17.01.2021)       Статьи

Клиент-серверный IPC на multiprocessing

Статья отражает личный опыт разработки CLI приложения для Linux.

В ней рассмотрен способ выполнения привилегированных системных вызовов процессом суперпользователя по запросам управляющей программы через строго описанный API.

Исходный код написан на Python для реального коммерческого приложения, но для публикации абстрагирован от конкретных задач.

     10.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Анимации градиентного спуска и ландшафта потерь нейронных сетей

Во время изучения различных алгоритмов машинного обучения я наткнулся на ландшафт потерь нейронных сетей с их горными территориями, хребтами и долинами. Эти ландшафты потерь сильно отличались от выпуклых и гладких ландшафтов потерь, с которыми я столкнулся при использовании линейной и логистической регрессий. Здесь мы создадим ландшафты потерь нейронных сетей и анимированного градиентного спуска с помощью датасета MNIST.

     09.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Как быть билингвом в Data Science

В этой статье я хочу продемонстрировать R Markdown — удобную надстройку для программирования вашего проекта как на R, так и на Python, позволяющую программировать некоторые элементы вашего проекта на двух языках и управлять объектами, созданными на одном языке, с помощью другого языка.

     08.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Нейросети в большом городе. Разбираемся, как они помогают идентифицировать людей, и запускаем собственную нейросеть

Алгоритмы по детекции лиц плотно вошли в нашу жизнь, хотя и не все это замечают. Началось всё в 2015 году со сферы развлечений. Shapchat купил стартап Looksery, в котором разрабатывали AR-фильтры. Приложение распознавало лицо человека на фотографии и накладывало на него весёлые рожицы. Чуть позже, в начале 2016 года, Facebook купил белорусский стартап MSQRD и запустил маски в Facebook Stories. Но это можно считать только обкаткой таких технологий.

В этой статье можно прочитать, как используются системы идентификации, узнать про слабые места компьютерных алгоритмов, а также попробовать запустить нейронную сеть по детекции и идентификации лиц на собственном компьютере.

     08.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Взламываем Ball Sort Puzzle

Ball Sort Puzzle — это популярная мобильная игра на IOS/Android. Суть её заключается в перестановке шариков до тех пор, пока в колбах не будут шарики одного цвета. При этом шарик можно перетаскивать либо в пустую колбу, либо на такой же шарик.

 

     07.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Как экономить память и удваивать размеры моделей PyTorch с новым методом Sharded

Модели глубокого обучения улучшаются с увеличением количества данных и параметров. Даже с последней моделью GPT-3 от Open AI, которая использует 175 миллиардов параметров, нам ещё предстоит увидеть плато роста количества параметров.

     06.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Генерация дефолтных Github аватарок

В данной статье я покажу и расскажу, как можно сгенерировать аватарки как на Github.

     06.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Визуализация пересечений и перекрытий с помощью Python

Преобладающая задача в любом анализе данных — сравнение нескольких наборов чего-либо. Это могут быть списки IP-адресов для каждой целевой страницы вашего сайта, клиенты, которые купили определённые товары в вашем магазине, несколько ответов из опроса и многое другое.

В этой статье воспользуемся Python для изучения способов визуализации перекрытий и пересечений множеств, наших возможностей, а также их преимуществ и недостатков.

     06.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

DALL · E от OpenAi: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года

Пару дней назад мы подводили ИИ итоги 2020-го года в мире машинного обучения. 2021-й год только начался, но мы определенно видим одну из важнейших работ в области ИИ текущего года.

Итак, исследователи в области искусственного интеллекта из openai создали нейронную сеть под названием DALL · E, которая генерирует изображения из текстового описания на естественном языке.

     05.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Анализ тональности в Python с помощью Dostoevsky

Одной из причин высокой популярности языка программирования Python является разнообразие библиотек нацеленных на обработку естественного языка (NLP). Сегодня мы рассмотрим одну из них под названием Dostoevsky.

     05.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Использование django-version-checks

В этом руководстве рассмотрим установку и использование простой библиотеки для проверки версий внешних зависимостей.

     05.01.2021       Выпуск 368 (04.01.2021 - 10.01.2021)       Статьи

Как я научила свой компьютер играть в пары используя OpenCV и Глубокое обучение

Немного веселья с компьютерным зрением и CNN с маленькой базой данных.

     02.01.2021       Выпуск 367 (28.12.2020 - 03.01.2021)       Статьи

Тестирование в Apache Spark Structured Streaming

На текущий момент не так много примеров тестов для приложений на основе Spark Structured Streaming. Поэтому в данной статье приводятся базовые примеры тестов с подробным описанием.

     31.12.2020       Выпуск 367 (28.12.2020 - 03.01.2021)       Статьи

ИИ итоги уходящего 2020-го года в мире машинного обучения

Подведем основные итоги уходящего года. Рассмотрим самые громкие открытия в мире компьютерного зрения, обработки естественного языка, генерации изображений и видео, а также крупный прорыв в области биологии. Коротко о самом главном за год!