IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Telegram

     16.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Как опубликовать консольную утилиту на PyPI за 1 минуту

Разработав консольную утилиту, вы решаетесь опубликовать её на PyPI. Ну правда, что может быть лучше, чем сделать её доступной через pip install? Погуглив, что для этого надо, вы, возможно, наткнётесь на единственный найденный мной пост по теме, который мало того что от 2014 года, так ещё и требует от вас создать кучу папок и файлов для совершенно ненужных (вам) вещей.

 

Как же решить эту задачу без лишней головной боли в 2019 году? Я уже задавался этим вопросом и поэтому, прочитав тонну документации, создал для вас этот туториал. Вот пошаговая инструкция.

     16.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Отличия LabelEncoder и OneHotEncoder в SciKit Learn

Если вы недавно начали свой путь в машинном обучении, вы можете запутаться между LabelEncoder и OneHotEncoder. Оба кодировщика — часть библиотеки SciKit Learn в Python и оба используются для преобразования категориальных или текстовых данных в числа, которые наши предсказательные модели понимают лучше. Давайте выясним отличия между кодировщиками на простеньком примере.

 

     16.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Telegram. Безлимитный сетевой диск, бесплатный

Наверняка многие об этом задумывались, возможно у кого то эта идея лежит в TODO. У меня она пролежала примерно год, но таки удалось ее реализовать в виде работающего прототипа.

TgCloud:

  • Виртуальная файловая система с открытым исходным г****кодом.
  • На локальном диске — только метаданные: имена, размер, структура папок и т.д.
  • Данные хранятся в Telegram и загружаются только при работе с файлом
  • Размер и тип файлов не ограничен, можно использовать с любой ОС

     16.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Многомерные графики в Python — от трёхмерных и до шестимерных

Визуализация — важная часть анализа данных, а способность посмотреть на несколько измерений одновременно эту задачу облегчает. В туториале мы будем рисовать графики вплоть до 6 измерений.

 

Plotly — это питоновская библиотека с открытым исходным кодом для разнообразной визуализации, которая предлагает гораздо больше настроек, чем известные matplotlib и seaborn. Модуль устанавливается как обычно — pip install plotly. Его мы и будем использовать для рисования графиков.

     15.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Используйте __main__.py

Зачем нужен __init__.py знает, наверное, любой питонист, но что насчёт __main__.py? Я видел немало проектов либо рабочих, либо на Github, которые не используют это магический файл, хотя могли бы сделать свою жизнь проще. На мой взгляд, __main__.py это лучший способ для взаимодействия с питоновскими модулями, состоящими из нескольких файлов.

     15.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи
     15.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Обучение логистической регрессии с L1 и L2 регуляризациями с методом SGD

Сегодня у нас пост с интересным заданием — будем обучать логистическую регрессию с L1 и L2 регуляризациями с помощью метода Stochastic Gradient Descent (SGD).

     15.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Использование библиотеки Matplotlib. Как делать анимированные графики

Анимированные графики в Matplotlib могут создаваться несколькими способами. Первый способ заключается в том, что можно самостоятельно обновлять график через заданный промежуток времени. Два других способа используют классы, производные от класса matplotlib.animation.Animation: FuncAnimation или ArtistAnimation. В данной статье будут рассмотрены все эти способы.

     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

DevOps в разработке: автоматизация написания кода веб-приложений

Как правило, внедрение DevOps во многих компаниях заканчивается на этапе автоматизации IT Operations, и очень мало кто говорит о внедрении DevOps непосредственно в сам процесс разработки.

Мне бы хотелось исправить это маленькое недоразумение. DevOps в разработку может прийти через формализацию кодовой базы, например, при написании GUI для REST API.

     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Что нового в разработке Mamba

Mamba — это drop-in замена Conda, потрясающего кросс-платформенного менеджера пакетов. На наш взгляд у Conda есть один фатальный недостаток: она слишком медленная, когда много пакетов уже установлено или при одновременной установке нескольких пакетов. Mamba по-прежнему использует Conda почти для всего, кроме разрешения зависимостей. Мы заменили эту часть Conda на альтернативную реализацию под названием libsolv — C библиотеку, которая уже лежит в основе менеджеров пакетов в Linux системах типа dnf в Fedora или zypper в OpenSuse.

     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи
     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Обзор Python-пакета Datatable

Datatable — это Python-библиотека для выполнения эффективной многопоточной обработки данных. Datatable поддерживает наборы данных, которые не помещаются в памяти.

Если вы пишете на R, то вы, вероятно, уже используете пакет data.table. Data.table — это расширение R-пакета data.frame. Кроме того, без этого пакета не обойтись тем, кто пользуется R для быстрой агрегации больших наборов данных (речь идёт, в частности, о 100 Гб данных в RAM).

     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Проверяем сведения о недостоверности в выписках из ЕГРЮЛ, склеив их в pdf на python

В настоящее время весьма актуальной темой остается возможность налогового органа исключить из ЕГРЮЛ общество всего лишь ”выявив” в отношении компании так называемые недостоверные сведения. Как показывает статистика с сентября 2018 года ФНС исключила из ЕГРЮЛ 90 тысяч организаций с записью о недостоверности сведений о руководителе, учредителе или адресе юрлица. Обнаружить тот факт, что в отношении компании имеются недостоверные сведения можно лишь просмотрев выписку из ЕГРЮЛ.

     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи
     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

Вейвлет-анализ.Часть 3

При проведении CWT анализа средствами библиотеки PyWavelets (бесплатное программное обеспечение с открытым исходным кодом, выпущенное по лицензии MIT) возникают проблемы с визуализацией результата

     14.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи
     13.06.2019       Выпуск 286 (10.06.2019 - 16.06.2019)       Статьи

QVD файлы — что внутри, часть 2

В первой статье о структуре QVD файла я описал общую структуру и достаточно подробно остановился на метаданных. В этой статье я опишу формат хранения информации о колонках, поделюсь своим опытом трактовки этих данных.

 

Итак (вспоминаем) QVD файл соответствует реляционной таблице, которая, как известно состоит из строк. Каждая строка таблицы в свою очередь состоит из колонок (или полей), причем строки имеют одинаковую структуру, которая может быть описана, например, SQL оператором (create table).