Bytedance запускает Omnihuman: генерировать реалистичные динамические видео полного тела с отдельных фотографий - статьи искусственного интеллекта

Автор：Eve Cole Время обновления：2025-02-06 06:32:02

Byte Beating запустит новую систему AI Omnihuman, которая может генерировать реалистичные видео с целым телом на основе отдельных фотографий, чтобы показать речи персонажей, пение и естественные действия. Эта технология объединяет различные входные данные, такие как текст, аудио и человеческие движения, и принимает метод обучения «полным условиям» для обучения на модели AI. Появление Omnihuman указывает на то, что область цифровых развлечений и коммуникации приведет к новым изменениям, что принесет неограниченные возможности для создания видео, производства образовательного контента и цифрового общения.

Omnihuman может генерировать видео всего тела, чтобы показать жесты и динамику персонажей, когда они говорят, превосходя модели ИИ, которые могут имитировать только лицевое или верхнее тело. Ядро этой технологии заключается в том, что она объединяет различные входные данные, такие как текст, аудио и человеческие движения.

Исследовательская группа отметила, что Omnihuman продемонстрировал значительный прогресс после более чем 18 700 часов обучения видеодатещиков человека. Представляя различные условные сигналы (такие как текст, аудио и осанка), эта технология не только улучшает качество генерации видео, но и эффективно уменьшает отходы данных.

Исследователи, упомянутые в статье, опубликованной в Arxiv, что, хотя технология конечного -уход человеческой анимации достигла значительного прогресса в последние годы, существующие методы по -прежнему имеют ограничения в расширении шкалы применений.

Omnihuman имеет широкий спектр потенциала применения и может использоваться для снятия речевых видео, демонстрации инструментальных выступлений и т. Д. После тестирования эта технология лучше, чем существующая система в многочисленных показателях качества, демонстрируя ее превосходную производительность. Эта разработка появилась в контексте растущей конкуренции между технологиями генерации видео, таких как Google, Meta и Microsoft, также активно преследуют аналогичные технологии.

Однако, хотя Omnihuman привносит возможность изменений в производстве развлечений, создании образовательного контента и цифровой коммуникации, это также вызвало обеспокоенность по поводу потенциального неправильного использования синтетических средств массовой информации. Исследовательская группа представит свои результаты исследований на предстоящей конференции по компьютерному зрению, хотя конкретное время и встреча еще не были объявлены.

Тезис: https://arxiv.org/pdf/2502.01061

Очки:

Omnihuman - это новый тип ИИ, который может превратить отдельные фотографии в реалистичные видео с целым телом.

После 18 700 часов обучения видеоданных человека эта технология сочетает в себе различные входные сигналы для улучшения эффекта генерирования.

Несмотря на обширный потенциал применения, он также вызвал обеспокоенность по поводу возможности синтетических сред.

Прорыв Omnihuman Technology установил новые критерии для области генерации видео, но в то же время она также должна обращать внимание на его потенциальные этические риски. используется разумно и избегайте негативных воздействий. С нетерпением жду новых приложений и результатов исследований о Omnihuman в будущем.