Собрали в одном месте самые важные ссылки
консультируем про IT, Python
Сегодня мы поговорим о такой важной теме как мультимодальные трансформеры.
Что же это такое в контексте машинного обучения - это способность одной модели работать сразу с несколькими видами данных - текстом, картинками, звуком, вытаскивать из них фичи в единое векторное пространство и манипулировать контентом на входе и выходе. Эта идея появилась еще на заре трансформеров в статье One Model To Learn Them All