IT-новости про Python, которые стоит знать

Собрали в одном месте самые важные ссылки
читайте нас в Twitter

     09.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Программный модуль оцифровки поврежденных документов

Оптическое распознавание символов (OCR) — это процесс получения печатных текстов в оцифрованном формате. Если вы прочитали классический роман на цифровом устройстве или попросили врача поднять старые медицинские записи через компьютерную систему больницы, вы, вероятно, воспользовались OCR.

 

OCR делает ранее статический контент доступным для редактирования, доступным для поиска и для обмена. Но многие документы, стремящиеся к оцифровке, содержат кофейные пятна, выцветшие солнечные пятна, страницы с загнутыми уголками и множество морщин сохраняют некоторые печатные документы в не оцифрованном виде.

     09.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Вариационные автокодировщики: теория и рабочий код

Когда-нибудь задавались вопросом, как работает модель вариационного автокодировщика (VAE)? Хотите знать, как VAE генерирует новые примеры, подобные набору данных, на котором он обучался? Прочитав эту статью, вы получите теоретическое представление о внутренней работе VAE, а также сможете реализовать его самостоятельно. Затем я покажу рабочий код VAE, обученный на наборе рукописных цифр, и мы немного повеселимся, генерируя новые цифры!

     09.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Как создать процедуральный арт менее чем за 100 строк кода

Generative art (генеративное или процедуральное искусство) может отпугнуть, если вы никогда с ним раньше не сталкивались. Если коротко, то это концепция искусства, которое буквально создает само себя и не требует хардкорных знаний программирования для первого раза. Поэтому я решил немного разбавить нашу ленту, погнали.

     08.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Вакансии

Вакансии для Python программистов. Дайджест за октябрь.

Вручную собрал для вас самые интересные вакансии из проверенных ИТ и Диджитал компаний. Вакансии от 40+ компаний: Google, Лаборатория Касперского, Яндекс, РБК, Mail .Ru, ЦИАН, Avito, Ozon, Otus и т.д.

     08.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Совмещение R и Python: зачем, когда и как?

Наверное, многие из тех, кто занимается анализом данных, когда-нибудь думали о том, возможно ли использовать в работе одновременно R и Python. И если да, то зачем это может быть нужно? В каких случаях будет полезным и эффективным для проектов? Да и как вообще выбрать лучший способ совмещения языков, если гугл выдает примерно 100500 вариантов?

Давайте попробуем разобраться в этих вопросах.

     07.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

[Перевод] Создание GIF-анимации с помощью OpenCV

Из этого туториала вы узнаете, как создавать анимированные GIF-файлы с помощью OpenCV, Python и ImageMagick. Затем объедините эти методы, чтобы создать генератор мемов с OpenCV!

     07.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

[Перевод] Data Science в Visual Studio Code с использованием Neuron

Сегодня у нас небольшой рассказ о Neuron, расширении для Visual Studio Code, которое является настоящей киллер-фичей для дата-сайнтистов. Оно позволяет совместить Python, любую библиотеку машинного обучения и Jupyter Notebooks. Подробнее под катом!

     05.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Создание и интегрирование бота VK в группу через VkBotLongPoll [Python]

В этой статье мы создадим бота и интегрируем его в группу VK на Python 3.x

Для тех, кто хочет написать простого бота для своего сообщества, умеющего определять команды и выводить соответствующий ответ

     05.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Маленькое удобство в жизни студента

Полагаю, многим моим ровесникам знакома знакома ситуация, когда в общем чате, где довольно часто мелькает важная информация, расположилось около 30 активных собеседников, постоянно нагружающих базы данных Вконтакте своими сообщениями. При таких условиях маловероятно, что эту важную информацию увидят все. Так случается и со мной. Год назад было принято решение исправить это недоразумение.

     05.11.2018       Выпуск 255 (05.11.2018 - 11.11.2018)       Статьи

Пишем чат бота для ВКонтакте на python с помощью longpoll. Часть вторая. Двойные циклы, исключения и прочая ересь

Эта статья является продолжением вот этой. Перед прочтением настоятельно рекомендую ознакомится с ней если вы этого не сделали ранее.

Сегодня вы узнаете:

 

  1. Как получать более одного ответа, пусть и колхозно
  2. Как подключить к этому яндекс переводчик
  3. И как писать пользователю что он сделал всё неправильно

     04.11.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Дорисовывание лиц с помощью машинного обучения

В этом примере показано использование различных алгоритмов машинного обучения для завершения изображений. Цель состоит в том, чтобы предсказать нижнюю половину лица, учитывая его верхнюю половину.

Первый столбец изображений показывает настоящие лица. Следующие столбцы иллюстрируют, как деревья (extremely randomized trees), метод k-ближайших соседей (k nearest neighbors/K-nn), линейная регрессия (linear regression) и RidgeCV (ridge regression complete) завершают нижнюю половину этих лиц.

     04.11.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Скрипт сборщика цитат и распознания текста из видео на Python

Пост о скрипте, который скачивает видео с youtube и распознает в нем текст. Начать решил сразу с практической реализации. «Vdudictionary» — Скрипт сборщика сборника цитат героев «Вдудь» на Python. Юрий Дудь и его проект «Вдудь» не нуждается в представлении. Самые горячие интервью, которые интересно смотреть. Юрий Александрович умеет сделать интересное шоу, независимо от того, знаете ли Вы героя конкретного выпуска, являетесь его фанатом или впервые слышите это имя.

     02.11.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Transfer Learning: как быстро обучить нейросеть на своих данных

Машинное обучение становится доступнее, появляется больше возможностей применять эту технологию, используя «готовые компоненты». Например, Transfer Learning позволяет использовать накопленный при решении одной задачи опыт для решения другой, аналогичной проблемы. Нейросеть сначала обучается на большом объеме данных, затем — на целевом наборе.

     01.11.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Краткий обзор алгоритма машинного обучения Метод Опорных Векторов (SVM)

В данной статье мы изучим несколько аспектов SVM:

 

  • теоретическую составляющую SVM;
  • как алгоритм работает на выборках, которые невозможно разбить на классылинейно;
  • пример использования на Python и имплементация алгоритма в библиотеке SciKit Learn.
В следующих статьях, я постараюсь рассказать о математической составляющей этого алгоритма.

     01.11.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Пишем чат бота для ВКонтакте на python с помощью longpoll

Сейчас боты стали обыденностью и находятся на каждом шагу, но если тебе нужен свой бот в социальной сети вконтакте, то это легко реализовать.

     31.10.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Электронная подпись ГОСТ Р 34.10 документов формата PDF в офисном пакете LibreOffice

Пришла пора исполнить свой гражданский долг – заплатить налоги. Платить налоги мы будем через портал Госуслуги. В личный кабинет портала Госуслуг будем входить с помощью электронной подписи (терминология портала Госуслуг ), т.е. имея на руках сертификат, полученный в аккредитованном удостоверяющем центре (УЦ), и закрытый ключ. И то и другое я храню на токене PKCS#11 с поддержкой российской

     31.10.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Готовим иерархическую кластеризацию или как я выявлял специализации у резюме

Я работаю разработчиком в hh.ru, и мне хочется перейти в датасайнс, но пока не хватает навыков. Поэтому в свободное от работы время я изучаю машинное обучение и стараюсь решать практические задачи из этой области. Недавно мне подкинули задачу по кластеризации наших резюме. Пост будет о том, как я решал её при помощи агломеративной иерархической кластеризации. Если не хочется читать, но интересен результат, то можно посмотреть сразу демо.

     30.10.2018       Выпуск 254 (29.10.2018 - 04.11.2018)       Статьи

Парсинг сайтов при помощи Python

Объем данных, доступных в Интернете, постоянно растет как по количеству, так и по форме. И эти данные очень часто бывают нужны для обучения ИИ. Большая часть этих данных доступна через API, но в то же время многие ценные данные по-прежнему доступны только через парсинг.

 

В данном руководстве будут рассмотрены несколько вариантов получения данных.