IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Telegram

     28.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Как мы готовили распределенный джойн на Spark Structured Streaming. Доклад с RamblerMeetup&Usermodel

История о том, как суточный ETL-контур карабкался в реалтайм.В рамках AdTech-подразделения холдинга Rambler&Co выделено отдельное направление Usermodel, которое занимается анализом и сегментацией аудитории, а также повышением конверсий на площадках.

     27.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Создаем GAN с помощью PyTorch

Генеративно-состязательные сети (Generative Adversarial Networks — GAN), предложенные Goodfellow и др. в 2014 году, произвели революцию в области создания изображений в компьютерном зрении — никто не мог поверить, что эти потрясающие живые изображения на самом деле создаются машинами с нуля. И даже больше — люди раньше думали, что задача генерации невозможна, и были поражены мощью GAN, потому что традиционно в этой области просто не существует каких-либо эталонных данных, с которыми мы могли бы сравнить наши сгенерированные изображения.

В этой статье представлена ​​простая идея, лежащая в основе создания GAN, за которой следует реализация сверточной GAN с помощью PyTorch и процедура ее обучения.

     27.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Выявление мошеннических сборов в Instagram

Изначально была выдвинута следующая гипотеза: злоумышленники часто берут фотографии из аккаунтов реальных детей, при этом изменив имя ребенка и реквизиты сбора. Первой мыслью был поиск подобных аккаунтов с дальнейшей классификацией их как подлинные, либо поддельные по каким-то признакам. Однако на практике оказалось, что такие аккаунты довольно быстро блокирует администрация по жалобам пользователей или мошенники закрывают свой аккаунт настройками приватности после появления «разоблачающих» комментариев, неудобных вопросов, и создают новый. При этом реквизиты сбора часто остаются те же самые.

     27.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Python-культура в российских IT-компаниях. Часть 1: Тинькофф

Почему разработчик принимает оффер одной компании и отвергает другой? Глобальный ежегодный опрос Stack Overflow 2020 года показал, что самые важные факторы выбора работы - это языки/ фреймворки/ технологии, на которых предстоит работать, и офисная среда/ корпоративная культура. Помимо вознаграждения, само собой.Мы расспросили разработчиков и их руководителей о python-разработке. И в серии статей расскажем: как устроена “внутренняя кухня” разработки, проектов и продуктов, как компании адаптируют новичков, и какие мотивы были у опытных разработчиков, когда они делали выбор в пользу своего текущего места работы. Первый в очереди - Тинькофф.

     27.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Как мы строили Data Science экосистему в Россельхозбанке

Мы продолжаем серию статей про Data Science задачи, решаемые нами в Центре развития финансовых технологий.В прошлых статьях (тут, а также тут) мы рассказывали про решение задач премодерации контента, но не вдавались в детали того, с помощью какого инструментария мы это делали. Сегодня же речь пойдет о том, что помогает нам решать эти задачи, а именно - про нашу Data Science экосистему.

     26.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Как сделать DIY-термостат с веб-интерфейсом, чтобы отапливать дом дистанционно

Недавно моим родителям установили «умный» термостат. И мне подумалось: неужели я не смогу сам сотворить нечто подобное? Отлично помню себя маленьким — я был одержим технологиями, особенно меня восхищали миниатюрные портативные устройства. Восторг вызывали мини-телевизоры, игровые приставки начала девяностых, наладонники Palm Pilot и коммуникаторы Nokia конца этого же десятилетия, карманные компьютеры, появившиеся на рубеже двухтысячных. Как же я мечтал об этом! И думал, что миниатюрные электронные устройства и системы домашней автоматики — это увлечение сильных мира сего, Брюса Уэйна или Тони Старка.

     26.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Как я генерировал мандалы

Первый опыт в веб-разработке и работе с векторной графикой.

     26.07.2021       Выпуск 397 (26.07.2021 - 01.08.2021)       Статьи

Yappa: запускаем python web-приложения. Просто. Бессерверно. В Яндекс Облаке

$ yappa deploy Все. Твое python приложение доступно в яндекс облаке, у него есть свой урл, оно готово к любому наплыву посетителей. А платишь ты только за время цпу, затраченное на обработку запросов.

     25.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Как написать Viber чат-бота, работающего с АСУ ТП на базе ПЛК Siemens

В данном руководстве рассмотрено создание чат-бот помощника в Viber на языке программирования Python. Чат-бот имеет доступ к базе данных MySQL, которая в свою очередь связана с АСУ ТП (автоматизированной системой управления технологическим процессом), разработанной на базе логического контроллера Siemens серии S7-1500.

     25.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Машинное обучение в Excel при помощи Python и PyXLL

К старту курса о машинном и глубоком обучении делимся переводом статьи, автор которой показывает на практике, как модель машинного обучения может использоваться через Excel. Зачем это нужно? Компании больше и больше вкладывают в исследования и разработку моделей прогнозов; по мнению автора оригинала статьи, разработчика и основателя компании PyXLL доступ к ML-моделям через Excel открывает новые горизонты. Вы сможете показать модель пользователям Excel, у которых нет опыта программирования или широких знаний в области статистики. При желании можно создавать инструменты разработки и тренировки моделей полностью в Excel, например строить графы в TensorFlow. Весь исходный код из статьи доступен на GitHub. Читать далее

     23.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Генератор абсурда за пять минут с NLTK и TreeTagger

Этот текст, при его очевидной абсурдности и лишённости смысла, мог показаться вам смутно знакомым. Это начало поэмы «Москва – Петушки», в котором слова, принадлежащие одной части речи, перемешаны между собой в случайном порядке.

     22.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Классификатор обращений пользователей (1C + python)

В нашей компании очень много пользователей и каждый день они шлют массу обращений на самые разные темы. У нас есть два отдела: "Программные разработки" и "Системные администраторы", и что бы облегчить жизнь техподдержке, был написан классификатор, который стыкует обращение пользователя на тот или другой отдел. В основе классификатора лежит логистическая регрессия.

     22.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Redis Python based cluster. Часть 2: зачем нужен Dynamo и что делать, когда Redis больше одного

Рано или поздно сервисы растут, а с большим RPS приходит Highload.

Что делать, когда ресурсов для вертикального масштабирования Redis уже нет, а данных меньше не становится? Как решить эту задачу без downtime и стоит ли её решать с помощью redis-cluster?

На воркшопе Redis Python based cluster Савва Демиденко и Илья Сильченков пробежались по теории алгоритмов консенсуса и попробовали в реальном времени показать, как можно решить проблему с данными, воспользовавшись sharding’ом, который уже входит в redis-cluster.

     22.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Шпаргалка по командам django-admin

В этой статье приведен полный список команд утилиты django-admin с кратким описанием.

     22.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Автоматический анализ документов

В этой статье я расскажу о том, как восстановить структуру таблицы и извлечь рукописные числа из отсканированного документа такого плана. Читать далее

     21.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Streamlit. Поиск кратчайшего пути

Самое длинное приключение начинается со слов «Я знаю короткую дорогу». Интересно о чем это? Читай дальше!

Streamlit - библиотека Python с открытым кодом. Она позволяет с легкостью создавать разные красивые веб-приложения для инженеров машинного обучения. Всего за несколько минут и пару строк кода можно создать стильные приложения.

     19.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Алгоритмы сортировки NumPy (и танцы, и мемы)

Да, наверное, нет более избитой темы, чем алгоритмы сортировки. Однако, меня в свое время так увлек процесс разбора того, какие алгоритмы задействованы в NumPy, что захотелось всем об этом рассказать. Возможно, слишком мелкая вещь, возможно, занудство какое-то, но тешу себя надеждой, что материал может быть полезным для тех, кто тему только начал! Особенно для таких же людей, как я, перешедших из смежных сфер (из телекома, например), где алгоритмы и структуры данных могут попросту не изучаться (бывает и такое). Если где-то что-то напутал (или наоборот материал оказался для вас полезным), буду рад обратной связи!

     19.07.2021       Выпуск 396 (19.07.2021 - 25.07.2021)       Статьи

Делаем простого бота в Telegram на Python. Интеграция с Excel

Друг предложил мне поработать над проектом для нашей кафедры. ТЗ пока не сформулировано, но точно известно, что это будет бот в телеге. Я хоть и питонист, но с ботами дел никогда не имел, поэтому пишу эту статью, как заметку, для себя и молодых перспективных ребят, чтоб у них было от чего оттолкнуться. Постараюсь писать максимально понятным и простым языком. Профессионалам тут особо делать не чего, хотя, может и придёт какая-нибудь идея.

     18.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch Часть6

В этом разделе мы будем реализовывать слегкаизмененнуюверсию модели Transformer из статьи Attention is All You Need. Все изображения в этой части взяты из этой статьи. Для получения дополнительной информации о Transformer обращайтесь сюда, сюда и сюда. На русском языке здесь.

     18.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Обзор Databrick. Что облачный продукт может дать начинающим специалистам

Данная публикация посвящена Databricks и она получилась не совсем обычный по двум причинам.