IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Telegram

     13.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Умная нормализация данных: категориальные и порядковые данные, “парные” признаки

Эта статья внеплановая. В прошлый раз я рассматривал нюансы и проблемы различных методов нормализации данных. И только после публикации понял, что не упомянул некоторые важные детали. Кому-то они покажутся очевидными, но, по-моему, лучше сказать об этом явно.

     12.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Вопросы и обсуждения
     11.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Python API в Delta Lake — простые и надежные операции Upsert и Delete

Мы рады объявить о релизе Delta Lake 0.4.0, в котором представлен Python API, улучшающий манипулирование и управление данными в Delta-таблицах.

     11.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Быстрый градиентный бустинг с CatBoost

 В градиентном бустинге прогнозы делаются на основе ансамбля слабых обучающих алгоритмов. В отличие от случайного леса, который создает дерево решений для каждой выборки, в градиентном бустинге деревья создаются последовательно. Предыдущие деревья в модели не изменяются. Результаты предыдущего дерева используются для улучшения последующего. В этой статье мы подробнее познакомимся с библиотекой градиентного бустинга под названием CatBoost.

     11.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Архитектура облачного волейбольного сервиса

Не так давно я писал про волейбольный сервис, теперь пришло время описать его с технической точки зрения.

Возможно, общественное сознание найдет изъяны в архитектуре и подтолкнет к лучшим решениям.

     10.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи
     09.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Дополнительные компоненты для кроссплатформеннной библиотеки материального дизайна KivyMD

Совсем недавно мы (команда разработчиков KivyMD) создали на GitHub KivyMD-Extension — организацию, в которой размещаются репозитории пользовательских дополнений для библиотеки KivyMD. Это пакеты компонентов, которые не связаны напрямую со спецификацией материального дизайна, но используют под капотом библиотеку KivyMD и существенно расширяют ее. О нескольких таких пакетах я расскажу сегодня.

     09.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи
     09.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи
     09.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Понимание деревьев решений в машинном обучении и их реализация с помощью Python

Дерево решений — тип контролируемого машинного обучения, который в основном используется в задачах классификации. Дерево решений само по себе — это в основном жадное, нисходящее, рекурсивное разбиение. «Жадное», потому что на каждом шагу выбирается лучшее разбиение. «Сверху вниз» — потому что мы начинаем с корневого узла, который содержит все записи, а затем делается разбиение.

     09.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Напишем и поймем Decision Tree на Python с нуля! Часть 5. Информационная энтропия

При создании дерева решений из данных алгоритм ID3 использует индекс, называемый информационной энтропией, чтобы определить, какой атрибут следует использовать для ветвления с наиболее эффективным распределением данных.

В начале, определимся с понятием объем информации. Интуитивно понятно, что объем данных = сложность, запутанность данных. Дерево решений собирает данные с одинаковыми значениями классов с каждого ветвления, таким образом снижая степень запутанности значений класса. Следовательно, при выборе атрибута, согласно которому лучше всего проводить ветвление, опираться стоит на то, насколько простыми стали данные после разветвления.

     09.11.2020       Выпуск 360 (09.11.2020 - 15.11.2020)       Статьи

Машинное обучение на помощь руководителю разработки

Интерес к теме машинного обучения и искусственного интеллекта неуклонно растет. Ежедневно в новостных сводках мы читаем про победу искусственного интеллекта над человеком. Как правило, описывается решение некоторой сложной задачи (челенджа). От жгучего желания воспроизвести результаты статьи во благо человечества (или своего собственного) в 99% случаев отговаривает отсутствие датасета, деталей реализации алгоритма и мощного железа (порой сотни единиц специализированных устройств для тензорных вычислений).

     08.11.2020       Выпуск 359 (02.11.2020 - 08.11.2020)       Статьи

Windows: достучаться до железа

Меня всегда интересовало низкоуровневое программирование – общаться напрямую с оборудованием, жонглировать регистрами, детально разбираться как что устроено... Увы, современные операционные системы максимально изолируют железо от пользователя, и просто так в физическую память или регистры устройств что-то записать нельзя. Точнее я так думал, а на самом деле оказалось, что чуть ли не каждый производитель железа так делает!