NVIDIA открыла исходный код Audio2Face
Компания NVIDIA сделала неожиданное исключение из своей закрытой политики и открыла исходный код технологии Audio2Face. Этот инструмент, входящий в набор средств генеративного ИИ, позволяет создавать реалистичную лицевую анимацию и синхронизацию губ в реальном времени на основе аудиозаписей. Система анализирует фонемы, интонации и эмоциональный окрас речи, чтобы генерировать анимационные данные для 3D-персонажей.
Технология уже доступна через плагины для Autodesk Maya и Unreal Engine 5, а вместе с ней опубликованы SDK, обучающий фреймворк и примерные датасеты. Это даёт разработчикам возможность адаптировать или дообучать модели под собственные задачи. В комплект входят модели регрессии и диффузии для синхронизации речи, а также сеть Audio2Emotion, способная определять эмоциональное состояние говорящего.
Audio2Face уже используется в игровых проектах — например, в Chernobylite 2 от The Farm 51. Среди других партнёров значатся GSC Game World, Codemasters, NetEase, Perfect World, Convai и Reallusion. Отказ от традиционного захвата мимики делает систему особенно привлекательной для студий, стремящихся ускорить производственный процесс.
По словам NVIDIA, технология входит в состав RTX Kit — набора ИИ-инструментов, включающего также средства для нейронной компрессии текстур и глобального освещения. Благодаря лицензии MIT, Audio2Face теперь доступен всем — от студентов до профессионалов, с возможностью интеграции в игры, цифровые сервисы и обучающие платформы.