IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
консультируем про IT, Python

     05.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Распределённое глубокое обучение: параллелизм моделей и данных в TensorFlow

Значительное количество задач, предусматривающих обучение глубоких нейронных сетей, можно решить на отдельном компьютере, обладающем единственным, сравнительно мощным и быстрым GPU. Но бывает так, что нужно что-то помощнее. Например — данные могут просто не поместиться в память, доступную на отдельной машине. Или окажется, что имеющееся «железо» просто не «потянет» некую задачу. В результате может возникнуть необходимость в горизонтальном масштабировании вычислительных мощностей.

     05.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Сравнение сервисов фильтрации нецензурной лексики

Недавно понадобилось мне подключить мой проект (сайт на WordPress, Телеграм-канал, ВК группу) к фильтру матов и озадачился я предложениями, которые выдает интернет. Поэтому решил проанализировать те, что смог найти и составить личный список, который, надеюсь поможет коммунити Хабра.

Спойлер: найдено всего два сервиса и если знаете еще, то пишите в комментариях.

     04.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Как выжать из солнечной батареи максимум с помощью обучения с подкреплением

Под катом вас ждёт чертёж установки, блок-схемы агента, работающего методом проб и ошибок, а также визуализации, видеоролики и, конечно, код. Материалом делимся к старту нашего флагманского курса по Data Science.

Агент-критик Softmax оптимизирует выработку энергии в моделируемой по реальным данным меняющейся среде освещения.

     04.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Преобразование офисных файлов в текст

Представление документа в виде простого текста понадобится для анализа его содержимого: индексирования и поиска, классификации, предварительной проверки.

     04.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Простой поиск дубликатов изображения

Существует множество проверенных решений, основанных на разных алгоритмах. Этот пример использует элементы машинного обучения, текущий уровень развития инструментов, позволяет с минимальными усилиями решать "бытовые задачи". В качестве меры сходства - косинусное сходство. Сравнение многомерных массивов (изображение в цифровом пространстве), ресурсоемкий процесс, поэтому, применяем обученную свёрточную нейронную сеть для уменьшения размерности с учетом важных пространственных признаков. Библиотека keras содержит готовые модели под разные задачи, этот пример задействует архитектуру VGG16 обученную на данных imagenet. Вход в сеть (N, 224, 224, 3), выход (1, 512).

     04.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Коротко о 6 простых и эффективных видах визуализации

У нас есть несколько способов понимания данных. Зачастую, когда мы анализируем их, то думаем о визуализации в последнюю очередь. Тем не менее, наш разум устроен так, что нам нужна визуальная форма вещей, которые мы хотим исследовать. Поэтому визуализация необходима не только для представления каких-то выводов, но и для выявления закономерностей мира.

     03.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Лингвистические особенности речи человека в диалогах с виртуальным ассистентом

Зачастую, для создания виртуальных ассистентов используются подходы на основе машинного обучения и, конечно, подходы на основе правил. Оба (в большей степени машинное обучение) полагаются на исходные данные, которыми обычно являются человеческие диалоги. При этом, не учитывается фактор того, что пользователи диалоговых систем не будут общаться с ними так же как с реальными людьми.

     02.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Создаем простой ETL на Python

В работе аналитика данных часто приходится использовать наборы данных, загружаемые из открытых источников. Рассмотрим простой пример использования конвейера для таких задач.ETL, сокращение от extract-transform-load, представляет собой серию процессов, которые включают в себя сбор данных, их обработку и хранение в безопасном и доступном месте. Конвейеры ETL (ETL pipeline) позволяют упростить эти процессы с максимальной эффективностью и минимальными издержками.Рассмотрим пошаговую реализацию конвейера ETL с использованием модулей Python.

     02.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи
     02.05.2022       Выпуск 437 (02.05.2022 - 08.05.2022)       Статьи

Основы работы со Spark DataFrame

При работе с распределенными базами данных, возникают задачи, которые ввиду технических ограничений сложно или невозможно решить с помощью всем привычного пакета Pandas на Python. Решением может стать использование распределенных вычислений Spark и его собственных DataFrame.

     01.05.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Робот-самурай. Как научить телеграм-бота писать хокку

Давно ничего не писал. Обещанного в прошло статье бота закончил, проект оказался довольно сложным, но опыта и знаний заметно прибавилось. А значит время начать новый проект! В этот раз, вдохновившись глубочайшими мыслями японских поэтов-философов, мы будем делать бота, который не просто постит хокку, а сам пишет и подбирает картинку по теме. Строго говоря, бот не придумывает хокку, а формирует новые из уже существующих, но хуже, как мне кажется, он от этого не становится. Итоговый код я оставлю на своём GitHub, а за работой бота можно следить в этом Телеграм канале. Подпишитесь, очень хочу, чтобы этот канал набрал аудиторию.

     30.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Динамика в деле: интерактивные графики в Dash

Dash представляет собой фреймворк для визуализации данных и построения веб-приложений, понятен и довольно прост в применении. Может быть интересен тем, кто хочет использовать интерактивные графики для анализа данных с помощью Python. Рассмотрим построение таких графиков с применением обратных вызовов в Dash.

     29.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

VPN на минималках ч.2, или трое в docker не считая туннеля

К прошлой статье закономерно возник ряд вопросов, и, перед тем как продолжить рассказ о внутривенном курсе отечественного велосипедостроения внесу ряд важных уточнений. Как мне показалось, постановка задачи была достаточно понятной. Со временем оказалось, что всё-таки показалось.

     29.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

IT-способ получения информации из достоверного источника

Поток информационных новостей сыпется со всех сторон. Поиск достоверной информацией становится всё затруднительнее. Для того, чтобы сделать правильный выбор необходимо лучше всего опираться на первоисточник. В мире экономики и финансов, пожалуй, одним их главных источников является Центральный Банк России. У Банка России реализован веб-сервис для получения ежедневных данных.

     29.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Открываем шлагбаум кнопкой на руле автомобиля

Я живу в Москве и у меня во дворе, как и у многих, установлен шлагбаум. Некоторое время назад я задался вопросом, как мне упростить процесс его открытия? Хотелось, чтобы можно было добавлять это действие в сценарии умного дома, открывать по кнопке в авто, давать друзьям возможность открывать его самостоятельно и т.д. Частично я решил проблему еще в прошлом году, но недавно всё "допилил" и решил поделиться.

     28.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Сказание о том, как я argparse препарировал

Недавно мне потребовалось пересобрать N парсеров в один. В нем должен быть родитель и N детей, а также возможность использовать функции сразу всех подпарсеров.

Спойлер: это было непросто! В статье расскажу о проблемах, с которыми столкнулся, а также объясню, как устроен модуль argparse в Python 3 и что он умеет.

     28.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Работа с отсутствующими значениями в Python

Отсутствующее значение в наборе данных отображается как вопросительный знак, ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?

Конечно, каждая ситуация отличается и должна оцениваться по-разному.

     27.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Работа с docx c помощью bayoo-docx

Нужно найти в docx-файле определенный фрагмент и оставить к нему комментарий? bayoo-docx (форк python-docx) умеет это! В конце статьи в виде бонуса расскажем, как определить номер страницы. 😊

 

     27.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Пространственный анализ тренировок

Это продолжение серии статей об анализе данных персональных тренировок из набора FIT-файлов, которые создаются при использовании носимых устройств (фитнес-браслеты, часы, смартфоны, велокомпьютеры). В предыдущих двух я рассказывал о том, как получить доступ к данным совершенных тренировок и как можно визуализировать показатели на графике.

     26.04.2022       Выпуск 436 (25.04.2022 - 01.05.2022)       Статьи

Причинно-следственный анализ в машинном обучении

Что появилось первым: курица или яйцо?

Статистики давно уже нашли ответ на этот вопрос.

Причем несколько раз.

И каждый раз ответ был разным.