Собрали в одном месте самые важные ссылкии сделали Тренажер IT-инцидентов для DevOps/SRE
В ML‑проектах проблемы часто начинаются не с выбора алгоритма, а с предобработки: один трансформер забыли применить к тестовой выборке, другой обучили до кросс‑валидации, третий сломался при передаче проекта коллеге. В статье разберём, как Pipeline в sklearn помогает собрать обработку данных и модель в единый воспроизводимый конвейер, снизить риск data leakage и упростить работу со сложными ML‑сценариями
Когда пишешь библиотеку, рано или поздно упираешься в движок. Не в красивый внешний интерфейс и не в обёртки, а в ту часть внутри, которая гоняет процесс по состояниям: что-то сгенерировал, проверил, решил, что делать дальше, повторил. Пара флагов, цикл while, большой if посередине, и через месяц вы уже сами не помните, какие переходы там вообще возможны и почему одна из веток недостижима.Недавно я собирал ровно такой движок и наткнулся на библиотеку, которая делает эту работу заметно аккуратнее. Называется pydantic-graph. Про неё почти не пишут, хотя на ней стоит весь pydantic-ai, агентский фреймворк от авторов Pydantic.
Мне стало любопытно: смогу ли я распарсить карту HotA и написать такой парсер, который сможет быстро отвечать на вопросы вроде: «Где можно выучить заклинание “Городской портал”?», «Где найти артефакт, например, Чёрный шар?», «Есть ли в тюрьме герой Джелу?» и всё в таком духе.А ещё я решил, что искать в интернете готовые спецификации скучно.
Дело моё — программы писать, а сходиться им положено с мастеровой грамотой: ГОСТами, СТО, спецификациями. Хочу спросить оракула в писарне про точный пункт — получаю складную околесицу со ссылками на то, чего никто не писал. Тогда я сложил себе doc-rag: местную снасть для извлечения премудрости из собственных свитков. Внутри — устройство, грабли, история про утраченный указатель и попытка рассказать всё это без единого заморского слова.
Я стал немного более GPU-rich. А это значит, что пора сдуть пыль со старого проекта)В этой части статьи мы создадим необходимую инфраструктуру, напишем простого агента, а также добавим нашему агенту MCP-инструменты.
Смотрели итоги прошедшего ICLR? Меня заинтересовала довольно провокационная статья от Эплов — ParaRNN. Казалось бы, параллельность РНН — это их главный недостаток, благодаря которому их заменили трансформеры (в большинстве задач).
Справочники МТР на крупных предприятиях ‒ это десятки тысяч строк вида «Кабель ВВГнг 3х2.5 кв.мм, серая изоляция, 100м», которые нужно разложить по атрибутам (тип, сечение, длина, цвет изоляции). Дубли, ошибки, разнородные форматы от разных поставщиков, почему это больная тема, а также подходы и методы решения, подробно разобраны в этой статье.
Telegram давно стал не только мессенджером, но и большой средой для сообществ: локальные чаты, профессиональные группы, каналы с комментариями, чаты по аренде, работе, продаже вещей, услугам и так далее. В какой-то момент у нас появилась техническая задача: сделать систему, которая умеет читать сообщения из Telegram-групп, проверять их по пользовательским правилам и отправлять уведомления, если найдено совпадение.
Полгода назад мы публиковали статью про то, как получили 3.3% WER для русского ASR с GigaAM. Замеры шли на пяти TTS-фрагментах из аудиокниг, что подтверждало тезис «специализация бьёт универсальность». С тех пор мы перемерили обе модели на реальных продакшен-записях и попали в три ловушки бенчмарка.Первый замер показал «GigaAM впереди Whisper на 7 pp». На тех же данных, после небольшой чистки, обе модели идут вровень. А на самом шумном клипе с реверберацией Whisper уходит вперёд на 19 pp. Э
В данной статье рассмотрено 5 разных алгоритмов машинного обучения, с наглядным сравнением их скорости работы на разном количестве аппаратных ресурсов.
В версии tcl/tk-9.0 добавлена возможность создавать изображения image из SVG-файлов (а значит и сохранять их в png-формате). Всё было хорошо до тех пор пока мне для статьи на сайте Tcler's Wiki ни потребовался флаг для кнопки переключения языка интерфейса
Блогер PewDiePie выпустил Odysseus — self-hosted AI workspace, который он позиционирует как локальную альтернативу интерфейсам ChatGPT и Claude. Проект объединяет чат с моделями, AI-агента с доступом к файлам и shell, систему памяти и навыков, deep research, редактор документов, email-триаж, заметки, задачи и календарь. Главная ставка — не просто на удобство, а на приватность
У меня в углу комнаты стоит сервер с двумя Tesla V100 32GB. Параллельно я в очередной раз пробовал заниматься английским — Simpler, Doalingo, ещё пара продуктов. Хорошие, но мне не подходил формат: я хотел сценарий «открыл телефон дома на семь минут, поговорил, закрыл». Без расписания, без камеры, без поиска тьютора, который понимает мой акцент с пятого раза.Сошлось.
У вас работает AI-агент. У соседней команды — свой, на другом фреймворке, в другом сервисе. Рано или поздно вашему агенту понадобится позвать их агента: «сходи найди факты, я подожду, дальше сам». Казалось бы — обычный HTTP-запрос, и дело с концом.А дело не с концом. Чужой агент — это не ручка, которая отдаёт число за 50 мс: он думает минутами, переспрашивает посреди работы, отваливается по таймауту, а результат хочет отдавать потоком. Н
Представьте ситуацию: вы только что вернулись из (заслуженного) отпуска с друзьями и, конечно, сделали множество фотографий. Вы хотите отправить друзьям фото с ними. Но как сделать это эффективно? Можно просмотреть фотографии вручную и отметить каждого друга отдельно. Но вы только вернулись из отпуска, ваш электронный почтовый ящик переполнен, и на просмотр фото совсем нет времени. Как же быть?
В статье рассматривается один из компонентов системы управления БЛА для поисково-спасательных работ — обнаружение людей на изображениях с бортовой камеры. Описан процесс выбора датасета, подготовки данных, обучения модели YOLOv8 и оценки её качества на тестовой выборке. Также приведены полученные метрики, примеры работы модели и обсуждаются возможные направления дальнейшего повышения точности обнаружения людей.
GitHub постепенно превращается в кладбище старого кода. Мы сравнили тысячи репозиториев и посмотрели, какие языки быстрее теряют активность, а где экосистема всё ещё растёт.
Рассказываем, как мы интегрировали CodeBERT-based модель классификации секретов в production-продукт с жёсткими ограничениями по железу, сократив время инференса с 320 до 90 секунд и размер модели с ~600 до ~130 МБ — без дискретных ускорителей и тяжёлых зависимостей.
Ощущение — нравится трек или нет, хочется ли его переслушать возникает во время обработки звука мозгом. Поэтому вместо того, чтобы напрямую предсказывать «качество» музыки по спектрограммам или эмбеддингам, можно построить промежуточное представление: сначала оценить, какие паттерны активности коры вызывает аудио, а затем уже по этим паттернам предсказывать относительную популярность треков.
Молодые разработчики, а иногда и опытные, стремясь сделать код «идеальным», часто уходят в оверинжиниринг и создают трудночитаемые конструкции. В итоге на реализацию уходит больше времени, а поддержка превращается в хард-квест с поиском ответов. Если и у вас есть желание написать какую-нибудь сложную абстракцию «на будущее» или применить новый паттерн просто потому, что вы его выучили — остановитесь на секунду.