IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Telegram

     16.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Приятная капча и ее решение

В статье пойдет речь о решении визуально привлекательной капчи, решение которой не только немного расслабляет и погружает в транс медитации, но также позволяет немного стряхнуть пыль с фреймворка selenium для python, а также пакета opencv. Именно эти инструменты и будут использоваться на капче, которая относится к так называемому виду капч «с перетаскиванием». Но, для начала, присказка.

     16.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Большая подборка телеграмм-каналов для аналитиков

Работа аналитика требует постоянного пополнения своих знаний - новые инструменты, обновления и методы создаются, как горячие пирожочки. Но перерабатывать такие объемы информации просто нереально, а узнавать что-то новенькое и полезное хочется. И что делать?

     16.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Общего решения из коробки — нет, или тестируем PySpark MLlib

Обозначим задачу: есть пайплайн, написанный с привычными для Data Scientist фреймворками типа Scikit-learn. Это нужно перенести в кластер Spark’а. Кажется, в чем тут может проблема? Андрей Гаврилов работает в компании EPAM software инженером и занимается data-инженерными задачами. Пишет на Python, работает с Big Data и изучает Data Science — потому что невозможно заниматься Big Data на Python, не касаясь при этом Data Science.И однажды он захотел выяснить, насколько модуль Spark, связанный с machine learning —  рабочий. Имеет ли  смысл его применять, когда мы мигрируем какое-то решение — например, Scikit-learn — на Spark.

     16.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch (Часть 4)

В этой части мы добавим несколько улучшений — упакованные дополненные последовательности и маскировка — к модели из предыдущего раздела. Упакованные дополненные последовательности используются, чтобы сообщить нашей RNN, что нужно пропускать маркеры заполнения в нашем кодировщике. Маскировка явно заставляет модель игнорировать определенные значения, такие как внимание к элементам с заполнением. Оба эти метода обычно используются в обработке естественного языка (NLP).Кроме того, мы рассмотрим как использовать нашу модель для вывода целевого предложения, давая ей входное предложение, видя результат её перевода, и выясняя, на что именно она обращает внимание при переводе каждого слова. Наконец, мы будем использовать метрику BLEU для измерения качества наших переводов.

     15.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch Часть3

В этом третьем посте о моделях sequence-to-sequence с использованием PyTorch и torchText мы будем реализовывать модель из стать Neural Machine Translation by Jointly Learning to Align and Translate. Эта модель демонстрирует лучшую точность из из трёх моделей (~27 по сравнению с ~34 у предыдущей модели).

     14.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch (Часть 2)

Во втором разделе туториола о моделях sequence-to-sequence с использованием PyTorch и TorchText мы будем реализовывать модель из работы Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. Эта нейронная сеть позволит достичь лучшей точности при использовании только однослойной RNN как в кодере, так и в декодере.

     13.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Как контейнеризировать среды ML разработки и не посадить на мель процессы MLOps

Проблема эффективного создания продуктов на базе Machine Learning в бизнесе не ограничивается подготовкой данных, разработкой и обучением нейросети или другого алгоритма. На итоговый результат влияют такие факторы, как: процессы верификации датасетов, организованные процессы тестирования, и размещение моделей в виде надежных Big Data приложений.

     13.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

Эксперимент для сотрудника с нарушением слуха, ч. 2, проверка на себе

В первой части мы рассказали, зачем вообще решили заняться этим вопросом, а также поделились переводом статьи, ставшей для нас отправной точкой для собственных изысканий. Теперь хотим рассказать, как мы доработали идею под нашего сотрудника.

Отдельное спасибо комментаторам, которые отметились в комментариях к первой части. Устройства с костной проводимостью, программные решения вроде Equalizer APO 1.2.1, слуховые устройства с поддержкой Bluetooth — мы собрали и передали все ваши идеи. Может быть, что-то из этого и выйдет. Но мы расскажем о своём варианте. Возможно, он тоже кому-то будет полезен.

     12.07.2021       Выпуск 395 (12.07.2021 - 18.07.2021)       Статьи

[recovery mode] Slicer: нарезка твердотельных объектов под раскрой

Красивая фэшн мебель, предметы роскоши и модный лухари интерьер - это то, что позволяет пустить пыль в глаза вашим гостям и прослыть хозяевам интересными людьми. Но как все это раздобыть, если у вас ипотека и бюджет ограничен?

     11.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Модели глубоких нейронных сетей sequence-to-sequence на PyTorch (Часть 1)

Этот туториал содержит материалы полезные для понимания работы глубоких нейронных сетей sequence-to-sequence (seq2seq) и реализации этих моделей с помощью PyTorch 1.8, torchtext 0.9 и spaCy 3.0, под Python 3.8. Материалы расположены в эволюционном порядке: от простой и неточной модели к сложной и обладающей наибольшей точностью.

     11.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Как новый метод упаковки в BERT ускоряет обработку естественного языка в 2 раза

Используя новый алгоритм упаковки, в Graphcore ускорили обработку естественного языка более чем в 2 раза при обучении BERT-Large. Метод упаковки удаляет заполнение, что позволяет значительно повысить эффективность вычислений. В Graphcore предполагают, что это также может применяться в геномике, в моделях фолдинга белков и других моделях с перекошенным распределением длины, оказывая гораздо более широкое влияние на различные отрасли и приложения. В новой работе Graphcore представили высокоэффективный алгоритм гистограммной упаковки с неотрицательными наименьшими квадратами (или NNLSHP), а также алгоритм BERT, применяемый к упакованным последовательностям. К старту курса о машинном и глубоком обучении представляем перевод обзора соответствующей публикации на ArXiv от её авторов. Ссылку на репозиторий вы найдёте в конце статьи.

     09.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи
     09.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Десктопизация по-питоновски. Инструменты для создания автотестов

Автоматизация тестирования – неотъемлемая часть процесса обеспечения качества. Мы в нашей практике чаще всего разрабатываем тесты для веб-, мобильных приложений и API, но сегодня хотим рассказать о более редком направлении – тестировании десктоп-приложений.

 

     08.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Безопасный ввод и сохранение зашифрованных паролей в конфигах Linux: пишем скрипт на Python

В условиях растущих требований к безопасности создание и хранение паролей может вызвать вопросы не только для пользователей, но и у разработчиков и системных администраторов. Специалисты и другие осведомлённые люди знают, что пароли нужно хранить в зашифрованном виде. Уже на этапе ввода символы пароля нужно скрывать от любых глаз (даже от того человека, который его вводит). Всегда ли мы можем выполнить хотя бы эти требования?

     08.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Книга «Python, например»

Python — стремительно развивающийся язык программирования современности. В этом увлекательном и необычном руководстве материал разбивается на доступные пошаговые фрагменты, а теория объясняется кратко и понятно. Вместо того чтобы обрушивать на читателя лавину технического жаргона, вгоняющего в ступор, эта книга предлагает ему поработать над 150 практическими задачами. Создавая программы для решения этих задач, читатель быстро перейдет от азов к уверенному использованию сопрограмм, графического пользовательского интерфейса и к работе с внешними файлами — текстовыми, в формате .csv и базами данных SQL. Книга идеально подойдет каждому, кто хочет освоить программирование на Python. В частности студенты, изучающие computer science, и преподаватели, которые хотят более уверенно овладеть Python, найдут в книге подборку готовых задач для использования на учебных
курсах.

     08.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи
     08.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Роль обратного распределения в построении нейросети

Обратное распространение — это способ обучения нейронной сети. Цели обратного распространения просты: отрегулировать каждый вес пропорционально тому, насколько он способствует общей ошибке. Если мы будем итеративно уменьшать ошибку каждого веса, в конце концов у нас будет ряд весов, которые дают хорошие прогнозы.

     07.07.2021       Выпуск 394 (05.07.2021 - 11.07.2021)       Статьи

Диаграмма Сэнкей (Sankey diagram) на Python

В моей работе часто возникают различные задачи по анализу консистентности и полноты данных, а также по визуализации. Одна из таких задач, которую решал относительно недавно - необходимость визуализировать действия пользователей нашего мобильного приложения. Нужно было понять, какие сценарии работы с приложением существуют и внимательнее рассмотреть действия пользователей на каждом шаге для дальнейшего улучшения стабильности работы приложения.