IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
консультируем про IT, Python

     09.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

HMM: ловим мошеннические транзакции

Австрийский банк. У него много клиентов, у клиентов открыт счет в этом банке. В течении года клиент тратит средства со своего счета. Ходит в магазины, гасит коммунальные платежи и пр. Каждое списание денег со счета назовем транзакцией. Дана последовательность транзакций за определенное время (скажем год). Надо обучить машину, чтобы она начала проверять новые транзакции как достоверные или подозрительные. И выдавала предупреждение в последнем случае. Для решения задачи надо использовать Hidden Markov Model.

     09.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Вопросы и обсуждения
     09.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Видео

Effective API schemas testing

Эффективное тестирование API схем при помощи property-based тестирования

     09.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Test Automation Strategy for REST APIs with Python — Tooling

Overview of open source tooling for REST APIs testing

     08.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Обработка и анализ текстов на Python и Spark NLP

В наше время без анализа и обработки текстов, не обходится ни один проект, и так уж сложилось что Python обладает широким спектром библиотек и фреймворков для задач NLP. Задачи могут быть как тривиальные: анализ тональности(sentiment) текста, настроение, распознавание сущностей(NER) так и более интересные как боты, сравнение диалогов в саппорт-чатах - мониторить следует ли ваша тех.поддержка или сейлз текстовым скриптам, или постобработка текста после SpeechToText.

 

     08.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Релизы
     08.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Липкие сессии для самых маленьких [Часть 1]

Липкие сессии (Sticky-session) — это особый вид балансировки нагрузки, при которой трафик поступает на один определенный сервер группы. Как правило, перед группой серверов находится балансировщик нагрузки (Nginx, HAProxy), который и устанавливает правила распределения трафика между доступными серверами.

     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи
     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Сравнение ассортимента блюд трёх ресторанов Санкт-Петербурга

Мне никогда раньше не приходилось иметь дело с парсингом данных из интернета. Обычно все данные для работы (аналитик данных) приходят из выгрузок компании с использованием простого внутреннего интерфейса, либо формируются sql-запросами к таблицам напрямую из хранилища, если нужно что-то более сложное, чем “посмотреть выручку за предыдущий месяц”. 

     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Как сделать полнотекстовую поисковую машину на 150 строках кода Python

Полнотекстовый поиск — неотъемлемая часть нашей жизни. Разыскать нужные материалы в сервисе облачного хранения документов Scribd, найти фильм в Netflix, купить туалетную бумагу на Amazon или отыскать с помощью сервисов Google интересующую информацию в Интернете — наверняка вы сегодня уже не раз отправляли похожие запросы на поиск нужной информации в невообразимых объёмах неструктурированных данных. И что удивительнее всего — несмотря на то что вы осуществляли поиск среди миллионов (или даже миллиардов) записей, вы получали ответ за считанные миллисекунды.

     07.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Релизы
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Отбор признаков в задачах машинного обучения. Часть 1

Часто наборы данных, с которыми приходится работать, содержат большое количество признаков, число которых может достигать нескольких сотен и даже тысяч. При построении модели машинного обучения не всегда понятно, какие из признаков действительно для неё важны (т.е. имеют связь с целевой переменной), а какие являются избыточными (или шумовыми). Удаление избыточных признаков позволяет лучше понять данные, а также сократить время настройки модели, улучшить её точность и облегчить интерпретируемость.

     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Релизы
     06.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Tesseract vs таблицы. Распознавание документов. Часть 2

В данном посте попытаюсь описать как я пытался ускорить свой API для распознавание документов с помощью tesseract, каких результатов смог достичь.

     05.04.2021       Выпуск 381 (05.04.2021 - 11.04.2021)       Статьи

Impala для Python-разработчика на примере определения фрода при анализе трафика в маркетинговой платформе

Как известно, есть множество различных систем хранения. Большинство из них рассчитаны на определенный объем данных. Если данных больше, то система хранения начинает вести себя непредсказуемо. Этих проблем лишены системы на базе Hadoop, основанные на файловой системе HDFS. Подобные не слишком часто используются в веб-разработке, но незаменимы для анализа данных и построения отчетов.