Собрали в одном месте самые важные ссылкии сделали Тренажер IT-инцидентов для DevOps/SRE
Это вторая часть обзора моделей для задачи синтеза речи (Text-to-Speech). В прошлой части я сравнил 7 Open Source моделей для этой задачи по нескольким критериям. В этот раз я решил посмотреть не только на Open Source-модели, но и на проприетарные TTS-решения.
Рассказываю, как на практике решать задачу NER. На примере извлечения сущностей из резюме пройдём путь от разметки данных до работающего API. Меньше теории, больше практики.
Разбираем архитектуру, построение AST, обратную польскую нотацию, обработку ошибок со стрелочками и двустороннюю интеграцию с Python. А в качестве демонстрации — пишем на получившемся языке игру на Pygame и Telegram-бота с long polling. Язык называется LawScript, и он умеет больше, чем кажется.
Когда-то давно мой папа сказал мне, что шмель по законам аэродинамики летать не должен. Но летает. Очень хотелось раскрыть эту загадку в детстве, но не было знаний. Прошло время, шмель забылся, временами напоминал о себе в летние дни, жужжа и трудолюбиво собирая нектар. Каждый раз глядя на этот мохнатый летающий танк, я думал что полёт его действительно невозможен, и это завораживало.
А теперь о том, что происходило в последнее время на других ресурсах.
В ансамблевом прогнозировании важнее не индивидуальное качество моделей, а разнообразие их ошибок. Эксперимент показывает: пул из «худших» по отдельности моделей даёт лучшую точность ансамбля, чем пул из «лучших».
Если вы ведете несколько проектов одновременно, вы знаете проблему управления информацией. Поэтому я написал свою систему. Это описание того, как я решал свои задачи, какие решения принимал и что из этого вышло. Если вы тоже теряете время при поиске нужной информации — возможно, найдёте здесь что-то полезное.
Это третья статья про мой "аниме завод" — систему, которая автоматически превращает длинные эпизоды в Shorts.Если хотите полный контекст, вот предыдущие части:
Насколько сложно сделать профессиональную озвучку для инди-проекта? Рассказываем историю нашей работы. Как мы делали озвучку для инди-проекта
Большинство команд до сих пор вручную собирают агентные циклы в LangGraph. Deep Agents предлагает более высокоуровневый подход, и он более категоричный в своих решениях, чем можно ожидать.
Способности LLM писать код растут очень быстро. А вот инженерные практики вокруг них – заметно медленнее. Поэтому на рынке одновременно существуют две реальности.В одной AI действительно ускоряет разработку: команда быстрее выполняет задачи, реже тонет в рутине и, что немаловажно, не проигрывает в качестве. В другой – тот же самый AI плодит тонны кода, который потом приходится дольше ревьюить, переписывать и отлаживать.И
Если вам когда-либо хотелось разобраться в том как работает линейная регрессия, или хочется освежить в памяти основные моменты без необходимости продираться через разрозненные источники, то прошу под кат.
В предыдущей статье я подробно рассказывал про свой "аниме завод" — пайплайн, который автоматически превращает эпизоды в готовые Shorts. Но внутри этой системы есть один особенно важный узел, который заслуживает отдельного разбора: виртуальная камера для автоматического кадрирования. В этой статье я разберу не просто "функцию автокропа", а полноценный алгоритм виртуальной камеры для вертикального видео.
В последнее время я часто работал с разными ML-проектами в GitLab. В каждом был свой .gitlab-ci.yml, своя обвязка вокруг MLFlow, своя регистрация и валидация модели. Со временем я понял, что MLOps-пайплайн во всех проектах очень похож, а при работе с новыми копипаста размножается быстрее кроликов.
вы написали подробное ТЗ и отдали его четырём специалистам. Все четверо — профессионалы, все мотивированы, все прочитали ТЗ целиком. Результат будет разный. Каждый делает как его учили, как привык, какой опыт накопил. И всегда есть шанс, что кто-то начнёт не с того конца или вообще решит ответить устно вместо того, чтобы сделать.Модель = работник. Скилл = ТЗ. Я взял одно ТЗ, отдал четырём работникам, и каждый выполнял его 120 раз.
LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без LangChain. Под катом — почему абстракции ломаются, сколько стоит фоллбек на YandexGPT и при чём тут медведь с удочкой.
Наш тестовый фреймворк перестал масштабироваться с ростом сервисов. Мы переработали архитектуру, ввели разделение на слои, упростили масштабирование автотестов и подготовили фреймворк к интеграции SDK и использованию AI
Когда аугментации в детекции «не работают», проблема часто не в модели, а в bbox после преобразований.Неверный coord_format, перепутанные нормализованные и абсолютные координаты, агрессивные кропы, пустые боксы после фильтрации — всё это не ломает код, но quietly ломает обучение.В статье разбираю:— какие форматы bbox поддерживает
Возможность делать скриншот — это базовый минимум, который есть во всех современных смартфонах. В этой статье я проведу небольшой экскурс в историю программ для скриншотов с телефона, кратко расскажу про протокол Phonet и, возможно, вызову легкие приступы ностальгии.У меня был Nokia 6303 classic — стильный телефон с металлической крышкой на платформе Nokia Series 40 (S40).
Типичная ситуация выглядит так: есть готовый Telegram-бот на aiogram, и нужно запустить его ещё в Max. Библиотека obabot предлагает другой путь: один код — два мессенджера. Один Код - Два Бота