04.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Разбираемся с ChainMap из коллекций Python

Работая с несколькими словарями, иногда нужно сгруппировать их и управлять ими как единым словарём. В других ситуациях у вас есть словари, представляющие различные области видимости, контексты и, чтобы получить данные в определённом порядке или с определённым приоритетом, нужно работать с ними как с единым словарём.

04.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Ансамблевые методы машинного обучения

Ансамблевые методы - это мощный инструмент для построения моделей машинного обучения. Команды, которые используют их в соревнованиях на kaggle, занимают победные места. Ансамбли позволяют увеличить точность модели до 90+, при этом они довольно просты в понимании.

Поэтому я решил осветить эту тему в данной статье и показать реализацию ансамблей с помощью scikit-learn.

03.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Полиномиальная регрессия и метрики качества модели

Давайте разберемся на примере. Скажем, я хочу спрогнозировать зарплату специалиста по данным на основе количества лет опыта. Итак, моя целевая переменная (Y) — это зарплата, а независимая переменная (X) — опыт. У меня есть случайные данные по X и Y, и мы будем использовать линейную регрессию для прогнозирования заработной платы. Давайте использовать pandas и scikit-learn для загрузки данных и создания линейной модели.

03.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Всё о работе с cookie в Python — класс http.cookies

Модуль http.cookies реализует парсер для cookie, по большей части совместимый с RFC 2109 — документом со стандартами работы с cookie и смежными вещами.

03.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

BDD-тестирование чат-бота

Многие знакомы с методологией Test-Driven Development и, в частности, Behavior-Driven Development. Этот подход к разработке и обеспечению качества ПО набрал большую популярность, поскольку позволяет выстроить четко установленное соответствие между бизнес-требованиями и технической реализацией продукта.

03.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Marshmallow vs. Pydantic: две лучшие библиотеки для сериализации и валидации данных на Python

Сериализация и десериализация данных — это преобразование между необработанной структурой данных и экземплярами классов для их хранения и передачи. Например, преобразование объектов Python в JSON-представление. Мы рассмотрим две популярные Python-библиотеки Marshmallow и Pydantic, которые помогут нам справиться как с преобразованием, так и с валидацией данных. Сначала я представлю вам каждую библиотеку, используя небольшие примеры, а потом мы сравним их и разберем различия. Я также расскажу, чего вам стоит избегать при работе с обеими библиотеками.

02.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Нейродайджест: главное из области машинного обучения за июль 2021

Новый язык программирования от Open AI, рост популярности диффузионных моделей, чат-бот с памятью не как у золотой рыбки — об этом и многом другом в июльском выпуске.

02.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Профессионально обрабатываем исключения в Python

Одним из недостатков гибких языков, таких как Python, является предположение, что если что-то работает, то скорее всего оно сделано правильно. Я хочу написать скромное руководство по эффективному использованию исключений в Python, правильной их обработке и логировании.

02.08.2021 Выпуск 398 (02.08.2021 - 08.08.2021) Статьи

Кратко: запросы к API и разбор XML-ответов. Python

Этот пост предназначен в первую очередь для новичков в разработке, впервые столкнувшихся с необходимостью отправить post/get запросы к какому-нибудь API и проанализировать полученный в XML ответ. Постаралась собрать необходимы минимум в одном месте.

30.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Как перенести нейросеть на мобильное устройство

В статье поговорим как обучить несложную CNN сеть с помощью tensorflow, конвертировать готовое с помощью tensoflow-lite и перенести на мобильное устройство под управлением android.
Описывается личный опыт автора, поэтому нет претензий на всеохватывающее руководство.

30.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

13 проектов для Python-программистов уровня intermediate

Изучение основ Python — прекрасный опыт. Но эйфория от изучения языка постепенно заменяется желанием создать что-то своими руками. И это нормально, но нужны идеи.

Проблема здесь в том, что некоторые проекты либо слишком просты, либо слишком сложны для разработчика среднего уровня. Эта статья — помощь программисту уровня intermediate. Она предоставляет несколько идей проектов, которые могут стать интересным вызовом для вас.

29.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Микросервисы vs. Монолит

В начале ноября на ютуб-канале Яндекс.Практикума прошли дебаты «Микросервисы, Монолит и Зомби». Ведущие дебатов — наставник курса «Мидл Python-разработчик» Руслан Юлдашев и техлид курса Савва Демиденко — разобрали архитектуры двух систем, прошлись по реальным задачам и ошибкам из своей рабочей практики и по очереди защищали свои позиции.

28.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Как мы готовили распределенный джойн на Spark Structured Streaming. Доклад с RamblerMeetup&Usermodel

История о том, как суточный ETL-контур карабкался в реалтайм.В рамках AdTech-подразделения холдинга Rambler&Co выделено отдельное направление Usermodel, которое занимается анализом и сегментацией аудитории, а также повышением конверсий на площадках.

27.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Создаем GAN с помощью PyTorch

Генеративно-состязательные сети (Generative Adversarial Networks — GAN), предложенные Goodfellow и др. в 2014 году, произвели революцию в области создания изображений в компьютерном зрении — никто не мог поверить, что эти потрясающие живые изображения на самом деле создаются машинами с нуля. И даже больше — люди раньше думали, что задача генерации невозможна, и были поражены мощью GAN, потому что традиционно в этой области просто не существует каких-либо эталонных данных, с которыми мы могли бы сравнить наши сгенерированные изображения.

В этой статье представлена простая идея, лежащая в основе создания GAN, за которой следует реализация сверточной GAN с помощью PyTorch и процедура ее обучения.

27.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Выявление мошеннических сборов в Instagram

Изначально была выдвинута следующая гипотеза: злоумышленники часто берут фотографии из аккаунтов реальных детей, при этом изменив имя ребенка и реквизиты сбора. Первой мыслью был поиск подобных аккаунтов с дальнейшей классификацией их как подлинные, либо поддельные по каким-то признакам. Однако на практике оказалось, что такие аккаунты довольно быстро блокирует администрация по жалобам пользователей или мошенники закрывают свой аккаунт настройками приватности после появления «разоблачающих» комментариев, неудобных вопросов, и создают новый. При этом реквизиты сбора часто остаются те же самые.

27.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Python-культура в российских IT-компаниях. Часть 1: Тинькофф

Почему разработчик принимает оффер одной компании и отвергает другой? Глобальный ежегодный опрос Stack Overflow 2020 года показал, что самые важные факторы выбора работы - это языки/ фреймворки/ технологии, на которых предстоит работать, и офисная среда/ корпоративная культура. Помимо вознаграждения, само собой.Мы расспросили разработчиков и их руководителей о python-разработке. И в серии статей расскажем: как устроена “внутренняя кухня” разработки, проектов и продуктов, как компании адаптируют новичков, и какие мотивы были у опытных разработчиков, когда они делали выбор в пользу своего текущего места работы. Первый в очереди - Тинькофф.

27.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Как мы строили Data Science экосистему в Россельхозбанке

Мы продолжаем серию статей про Data Science задачи, решаемые нами в Центре развития финансовых технологий.В прошлых статьях (тут, а также тут) мы рассказывали про решение задач премодерации контента, но не вдавались в детали того, с помощью какого инструментария мы это делали. Сегодня же речь пойдет о том, что помогает нам решать эти задачи, а именно - про нашу Data Science экосистему.

26.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Как сделать DIY-термостат с веб-интерфейсом, чтобы отапливать дом дистанционно

Недавно моим родителям установили «умный» термостат. И мне подумалось: неужели я не смогу сам сотворить нечто подобное? Отлично помню себя маленьким — я был одержим технологиями, особенно меня восхищали миниатюрные портативные устройства. Восторг вызывали мини-телевизоры, игровые приставки начала девяностых, наладонники Palm Pilot и коммуникаторы Nokia конца этого же десятилетия, карманные компьютеры, появившиеся на рубеже двухтысячных. Как же я мечтал об этом! И думал, что миниатюрные электронные устройства и системы домашней автоматики — это увлечение сильных мира сего, Брюса Уэйна или Тони Старка.

26.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Как я генерировал мандалы

Первый опыт в веб-разработке и работе с векторной графикой.

26.07.2021 Выпуск 397 (26.07.2021 - 01.08.2021) Статьи

Yappa: запускаем python web-приложения. Просто. Бессерверно. В Яндекс Облаке

$ yappa deploy Все. Твое python приложение доступно в яндекс облаке, у него есть свой урл, оно готово к любому наплыву посетителей. А платишь ты только за время цпу, затраченное на обработку запросов.

Все Только на русском Только на английском

IT-новости про Python, которые стоит знать