08.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

Поиграем в слова? Автоматическое распознавание букв и нахождение слов в игре Слово

Однажды я играл в игру "Слово", основная суть которой заключается в составлении слов из прилегающих друг к другу букв, которые даны на игровом поле 5 на 5. И ко мне пришла идея о создании программы, которая могла бы автоматически решать поставленную задачу. В итоге был реализован shortcut на iPhone1, который совместно с дополнительными программами помогает находить слова.

07.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

8 лучших фреймворков для тестирования с помощью Python в 2021 году

07.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

Как классифицировать данные без разметки

Пользователи iFunny ежедневно загружают в приложение около 100 000 единиц контента, среди которого не только мемы, но и расизм, насилие, порнография и другие недопустимые вещи.

Раньше мы отсматривали это вручную, а сейчас разрабатываем автоматическую модерацию на основе свёрточных нейросетей. Систему уже обучили на разделение контента по трём классам: она распознает, что пропустить в ленты пользователей, что удалить, а что скрыть из общей ленты. Чтобы сделать алгоритмы точнее, решили добавить конкретизацию причины удаления контента, у которого до этого не было подобной разметки.

07.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

«Оптимизируем» функции на уровне AST

Python предоставляет программисту огромное пространство свободы. Увы, обычно это довольно дорогая в плане производительности свобода, зато при правильном применении иногда она позволяет творить сущую магию. Но сегодня мы поговорим не о таких вот «богоугодных» применениях свободы, а о том, что никогда не стоит использовать в прикладном программировании — о модификациях кода на уровне AST.

07.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

Использование API-схем для property-based-тестирования

Когда мы работаем с API-схемами, обычно существует несколько моделей, и они синхронизируются на разных уровнях. Обычно есть база данных, код и схема. И всё это нужно держать между собой в синхроне, чтобы они нормально друг с другом взаимодействовали.

Я расскажу об обычных проблемах, с которыми люди сталкиваются при использовании API-схем. Как можно использовать API-схемы для описания property-based-тестов, и чем здесь может помочь Schemathesis. И покажу на практике, как его можно интегрировать в существующий проект.

06.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

Python-культура в российских* IT-компаниях. Часть 2: Provectus

В первой части статей о python-культуре мы писали про Тинькофф, а в этот раз решили рассказать о компании, в которую инженеры приходят, чтобы решать действительно сложные задачи, например, применение AI для распознавания болезней.

06.09.2021 Выпуск 403 (06.09.2021 - 12.09.2021) Статьи

Как объединить 5 языков программирования в одном Python проекте?

На сегодняшний день существует несколько тысяч языков программирования, каждый из которых создавался с определенной целью, пытаясь изменить и улучшить недостатки своих предшественников. Так, например, появился язык Kotlin, который был нацелен на замену Java в мобильной разработке. В 2010 году увидел свет язык Rust, разработчики которого пытались создать быстрый и безопасный язык, который закрывал бы многие недостатки C/C++.

31.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

DataScience Digest — 31.08.21

31.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

JSON-Logger для FastAPI

Пошаговая инструкция, как я сделал собственный асинхронный json-logger для FastApi и зачем.

Цель данной статьи и моей личной разработки - написать о том, как я придумал свой собственный и удобный формат json-журналирования специально для компании, в которой я работаю, но не нашел готовых решений для реализации, который позволит мне воплощать очень гибко и удобно некоторые вещи с единым наименованием полей, чтобы логгирование протекало быстро и асинхронно, а также: не заставляло бы меня писать много кода и обойтись одной-двумя библиотеками максимум.

30.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

Google Sheets API + Python. Чтение и запись с Сервисным Аккаунтом Google Cloud

Google Sheet и Sheets API - классный (простой, бесплатный и универсальный) способ организовать хранение и анализ данных получаемых от своего сервиса. При условии что этих данных не то чтобы очень много и поступают они не то чтобы очень часто.

У меня таких задач хватает и решаю я их либо на Python, либо на PHP. Сегодня возьму в руки Python.

30.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

Как достичь максимального счастья в обществе? (теория игр)

Теория игр - это не только об изучении стратегий в играх, таких как шахматы, го или других. Применять теорию игр уже сегодня пытаются в различных областях: в политике, в спорте, в кибернетике, в психологии и многих других местах. Данная наука выполняет математический анализ ситуаций (в которых сталкиваются интересы нескольких сторон, преследующих различные цели), пытаясь формализовать и описать данные ситуации в виде математической модели, определяющей некоторую игру.

30.08.2021 Выпуск 402 (30.08.2021 - 05.09.2021) Статьи

Асинхронный джанго, другой взгляд

Этот текст содержит предложения, как сделать джанго орм (а вместе с ним и сам джанго) асинхронным.

29.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Классификатор методом BallTree поиска k-ближайших соседей на Python

Классификация методом поиска ближайших соседей - относительно простой для понимания метод классификации, суть которого подробно рассматриваться в этой статье не будет.

Метод предполагает наличие алгоритма поиска ближайших соседей. Можно использовать разные алгоритмы. Самый простой, но при этом не эффективный по времени алгоритм - полный перебор всех соседей для поиска ближайших. Существуют так же методы поиска, называемые KDtree и BallTree.

28.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Расставляем ударения с помощью Natasha и Spacy

Представьте себя на месте изучающего русский язык иностранца. Ударение станет одним из ваших самых страшных ночных кошмаров. Во-первых, оно не описывается каким-то простым набором правил, и чаще всего правильное произношение приходится просто запоминать. Во-вторых, оно обычно не обозначается в текстах, что практически сводит на нет относительную близость русской орфографии к произношению - без ударений правильно прочитать текст с незнакомыми словами иностранец все равно не сможет. В-третьих, неправильное ударение сильно меняет фонетический образ слова для русского человека, и из-за одной ошибки вас могут просто не понять.

28.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Python: конфигурация проекта без боли

Расскажу о проделанном пути, чтобы найти идеальный, для моих целей, инструмент конфигурирования проекта и о создании легковесной библиотеки bestconfig, впитавшей в себя преимущества изложенных подходов.

27.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Библиотека СleanAPI: cоздаем микросервис на Python за 30 секунд

Использование микросервисной архитектуры для построения корпоративных приложений взамен традиционной монолитной — популярный тренд в веб-разработке.

Я не ставил целью настоящей статьи познакомить читателей с концепцией микросервисов. Желающим получить общее введение в тему могу порекомендовать заглянуть сюда.

27.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Таблица актуальности фактических данных как архитектурное решение

В этой статье речь пойдёт об архитектуре данных, где необходимо хранить статусы записей, получая информацию об их актуальности.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Анализируем данные с помощью визуализации: рисуем поверх Google Maps

Одна из первых задач, которую мне поручили здесь — проверить качество географических данных. Формально эта задача больше относится к анализу данных, чем к системному анализу. Но меня она очень заинтересовала, ведь требовался не только анализ, но и исследование и, по возможности, реализация решения, а для меня это самое интересное в работе.

26.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Создание приложения для анализа данных машинного обучения

Нейронные сети очень мощны для выполнения предиктивного анализа и решения аналитических задач. Они широко используются для классификации данных, чтобы обнаруживать закономерности и делать прогнозы. Бизнес-кейсы варьируются от классификации и защиты данных клиентов до классификации текста, поведения потребителей и многих других задач.

25.08.2021 Выпуск 401 (23.08.2021 - 29.08.2021) Статьи

Построение тепловой карты именованных сущностей

Именованные сущности – это слово или сочетание, обозначающее объект либо явление определенной категории. Говоря о таких объектах в контексте анализа данных, чаще всего имеют в виду ограниченный набор видов: имя (псевдоним), дата, должность (роль), адрес, денежная сумма, название организации и др.

Расположение данных объектов в строгой структуре документа формирует отдельное признаковое пространство визуальной стороны страницы и может повысить качество классификации (или кластеризации). Предлагаем разобраться, как можно получить и использовать координаты именованных сущностей в документе.

Все Только на русском Только на английском

IT-новости про Python, которые стоит знать