Собрали в одном месте самые важные ссылки
читайте авторский блог
Прогноз кликабельности (CTR), цель которого - предсказать вероятность того, что пользователь нажмет на объявление или товар, имеет решающее значение для многих онлайн-приложений, таких как онлайн-реклама и консультирующие (рекомендательные) системы. Эта проблема очень сложна, поскольку: 1) входные функции (например, идентификатор пользователя, возраст пользователя, идентификатор элемента, категория элемента) обычно разрежены; 2) эффективное предсказание опирается на комбинаторные функции высокого порядка (они же кросс-функции), которые очень трудоемки для ручной обработки экспертами предметной области и не перечислимы. Поэтому были предприняты усилия по поиску низкоразмерных представлений разреженных и высокоразмерных необработанных объектов и их значимых комбинаций.
В гостях у Moscow Python Podcast лидер Python практик компании S7 TechLab Антон Якунин. Поговорили с Антоном о опыте запуска MVP в большом компании.
Как обычно проходит собеседования на позицию разработчика Python? Обычно одним из первых вопросов будет просьба рассказать о типа данных (или составных типах данных) в Python. Потом через несколько других общих вопросов разговор обязательно перейдет к теме дескрипторови метаклассов в Python. И хотя это такие вещи которые в реальной практике редко когда приходится использовать, каждый разработчик должен иметь хотя бы общее представление о них. Поэтому в этой статье я хочу немного рассказать о метаклассах.
В очередном Python-стриме мы встречаемся с евангелистами MoscowPython Михаилом Корнеевым и Григорием Петровым. Михаил недавно запустил ютуб- и телеграм-канал "Хитрый Питон", в которых он делится небольшими хитростями, которые он находит в процессе работы над курсами Learn Python. На стриме мы обсудим, почему Питон - хитрый и какие хитрости полезно знать и использовать в процессе разработки.
Можете представить себе классификатор изображений, который решает практически любую задачу, и который вообще не нужно обучать? Представили? Выходит, что это должен быть универсальный классификатор? Все верно! Это новая нейросеть CLIP от OpenAI. Разбор CLIP из рубрики: Разбираем и Собираем Нейронные Сети на примере Звездных Войн!
Предполагаемая природа типа «черный ящик» нейронных сетей является препятствием для использования в приложениях, где важна интерпретируемость. Здесь мы представляем DeepLIFT (Deep Learning Important FeaTures), метод декомпозиции выходного предсказания нейронной сети на конкретном входе путем обратного распространения откликов всех нейронов (узлов) сети на каждый признак входного сигнала. DeepLIFT сравнивает активацию каждого нейрона с его «эталонной активацией» и присваивает оценки его отдельного вклада. При необходимости раздельно рассматривая положительные и отрицательные вклады, DeepLIFT может также выявить зависимости, которые упускаются другими подходами. Баллы могут быть эффективно вычислены за один обратный проход. Мы применяем DeepLIFT к моделям, обученным на MNIST и смоделированных геномных данных, показывая значительные преимущества перед градиентными методами.
В современном мире услуги доставки становятся всё более популярными и востребованными, поэтому любая возможность автоматизации в этой сфере принесёт большую пользу как бизнесу, так и пользователям. В прошлых статьях нашего блога мы рассказывали о применении машинного зрения и нейронных сетей для распознавания ценников товаров в магазине, а также для распознавания комплектующих деталей. В этой статье мы расскажем о менее амбициозной (но не менее интересной) задаче – автоматизации оповещения клиентов о статусе их заказов с использованием чат-бота в Telegram, QR-кодов и реляционной СУБД SAP SQL Anywhere.
Это продолжение туториала по библиотеке opencv в python. Для тех кто не читал первую и вторую части, сюда: Часть 1 и Часть 2, а всем остальным — приятного чтения!
Признаю: мне очень нравится та невероятная скорость, с которой загружаются домашние компьютеры 1980-х годов. Я какое-то время пытался оптимизировать время загрузки Raspberry Pi, но особенно далеко в этом деле не продвинулся. Я, кроме того, большой поклонник специализированных устройств, в которых аппаратное обеспечение используется для решения какой-то одной задачи. Такие системы тоже работают очень быстро. MicroPython — это очень интересная разработка, попадающая в сферу моих интересов. Это, с одной стороны — «язык высокого уровня», а с другой — программный комплекс, который без особых сложностей работает на весьма скромных аппаратных ресурсах.
В данной статье я расскажу историю как мы с двоюродным братом сделали свою «умную» колонку.
Работать с Data Science в Jupyter, конечно, очень приятно, но если вы хотите пойти дальше и развернуть свой проект или модель на облачном сервере, то здесь есть много отличных решений — с помощью Flask, Django или Streamlit. Хотя облачные решения по-прежнему самые популярные, часто хочется создать быстрое приложение с графическим интерфейсом.
Есть много статей, объясняющих, для чего нужен Python GIL (The Global Interpreter Lock) (я подразумеваю CPython). Если вкратце, то GIL не даёт многопоточному чистому коду на Python использовать несколько ядер процессора.
Однако мы в Vaex исполняем большинство задач с интенсивными вычислениями на С++ с отключением GIL. Это нормальная практика для высокопроизводительных Python—библиотек, в которых Python всего лишь выступает в роли высокоуровневого связующего звена.
Взлёт искусственного интеллекта привёл к популярности платформ машинного обучения MLaaS. Если ваша компания не собирается строить фреймворк и развёртывать свои собственные модели, есть шанс, что она использует некоторые платформы MLaaS, например H2O или KNIME. Многие исследователи данных, которые хотят сэкономить время, пользуются этими инструментами, чтобы быстро прототипировать и тестировать модели, а позже решают, будут ли их модели работать дальше.
В предыдущей статье я рассказал, как подготовить датасет, содержащий тексты блога habr.com с информацией об их принадлежности к определенной категории. Теперь на базе этого датасета я расскажу о подходах, позволяющих создать классификатор, автоматически относящий текст к той или иной категории.
Сегодня нам предстоит описать решение задачи по созданию классификатора текстовых документов. Шаг за шагом мы будем пытаться улучшить нашу модель. Давайте посмотрим, что же из этого получится.
Одно из ключевых направлений развития платформы данных InterSystems IRIS — открытость. Открытость во взаимодействии с языками программирования, технологиями и протоколами. Поддержка языков программирования двусторонняя — возможен как вызов кода из InterSystems IRIS, так и предоставляется API для работы с InterSystems IRIS извне.
Datalore — это мощная онлайн-среда для Jupyter-ноутбуков, разработанная в JetBrains. Здесь мы собрали описание самых важных обновлений Datalore за прошедший год.
Этот пост будет полезен двум категориям людей: IT-рекрутерам и начинающим разработчикам, которые хотят научиться писать простенькие программы для решения практических задач.
Задача: известен профиль пользователя на GitHub, необходимо найти email этого пользователя
Итак, все фотографии разложены по папкам и находить фотографии Новых годов или дней рождения стало быстро и удобно. Фотографии из отпусков тоже можно найти относительно быстро, но хотелось большего. А именно, искать по людям и не просто по людям, а по набору людей, например, найти все совместные фотографии детей или фотографии с бабушкой и т.д.
Поэтому я решил немного углубиться в так называемый Face Recognition.