В области генерации видео Openai Sora рассматривалась в качестве отраслевого эталона за его высокие затраты на обучение и отличную производительность. Тем не менее, Luchen Technology недавно объявила о открытом исходном источнике своей модели генерации видео Open-Sora2.0, которая, несомненно, вызвала огромные ощущения в отрасли. Open-Sora2.0 быстро стал новой целью технологии генерации видео с чрезвычайно низкой стоимостью обучения и производительности, близкой к лучшим моделям.
Стоимость обучения Open-Sora2,0 составляет всего 200 000 долларов США, что эквивалентно инвестициям 224 графических процессоров, но она успешно обучила модель генерации видео коммерческого уровня с 11 миллиардами параметров. Это достижение не только демонстрирует технологические прорывы Luchen Technology, но и приносит новые возможности для области генерации видео.

Хотя Open-Sora2.0 стоит намного ниже, чем Openai Sora, его производительность не меньше. Open-Sora2.0 произвел впечатляюще в авторитетных обзорах VBENCH и пользовательских предпочтений, и даже может конкурировать с моделями с закрытым исходным кодом, которые стоят миллионы долларов для обучения на нескольких ключевых показателях. Особенно в оценке VBENCH разрыв в производительности между Open-Sora2.0 и Openai Sora значительно сократился с предыдущих 4,52% до только 0,69%, почти достигая полной ударной работы.
Что еще более захватывающе, так это то, что результаты Open-Sora2.0 даже превосходят Hunyuanvideo Tencent в Vbench, демонстрируя свою сильную силу в технологии генерации видео. Это достижение не только доказывает технологические преимущества Open-Sora2.0, но также устанавливает новый эталон для технологии генерации видео с открытым исходным кодом.
В обзоре предпочтений пользователей Open-Sora2.0 имеет как минимум два показателя, которые превосходят модель SOTA с открытым исходным кодом Hunyuanvideo и бизнес-модель Business Model Gen-3alpha в трех ключевых измерениях визуальной производительности, последовательности текста и производительности действий. Это достижение дополнительно консолидирует лидирующую позицию Open-Sora2.0 в области генерации видео.

Причина, по которой Open-Sora2.0 может достичь такой высокой производительности при такой низкой стоимости, заключается в серии технологических инноваций и стратегий оптимизации. Прежде всего, Open-Sora2.0 продолжает дизайнерскую идею Open-Sora1.2, принимает 3D-среднюю учебную структуру с автосодовым и соответствующим потоком и вводит трехмерный механизм полного внимания для дальнейшего улучшения качества генерации видео.
Чтобы осуществить окончательную оптимизацию затрат, Open-Sora2.0 начинается с нескольких аспектов: строгий скрининг данных обеспечивает высококачественный ввод данных обучения, приоритет уделяется обучению с низким разрешением для эффективного изучения информации о движении, приоритет уделяется учебным графическим видео задачам для ускорения конвергенции моделей и воспроизведения эффективных тренировок, комбинируя инициализацию, использует усовершенствование в области усовершенствования.
Предполагается, что стоимость единого обучения более чем 10 б видеомоделей с открытым исходным кодом на рынке часто составляет миллионы долларов, в то время как Open-Sora2.0 снижает эту стоимость в 5-10 раз. Этот прорыв не только снижает порог для высококачественного генерации видео, но также дает большему количеству разработчиков возможность участвовать в исследованиях и разработке технологий генерации видео.
Что еще более похвально, так это то, что Open-Sora2.0 не только код модели с открытым исходным кодом и веса, но и полный код обучения с открытым исходным кодом, который, несомненно, значительно будет значительно способствовать развитию всей экосистемы с открытым исходным кодом. Количество академических документов open-sora2.0 получило почти 100 цитат в течение полугода, заняв первое место в глобальном рейтинге с открытым исходным кодом, став одним из самых влиятельных в мире проектов с открытым исходным кодом.
Команда Open-Sora2.0 также активно изучает применение видеососера с высоким уровнем сжатия, чтобы значительно снизить затраты на вывод. Они обучили видеоаукодер с высоким соотношением сжатия (4 × 32 × 32), чтобы сократить время вывода с созданием 768px и 5-секундных видео за одну карту от почти 30 минут до 3 минут, а скорость увеличилась на 10 раз. Это инновация означает, что в будущем мы можем быстрее генерировать высококачественный видеоконтент.
Модель генерации видео с открытым исходным кодом Open-Sora2.0, запущенная Luchen Technology, с ее недорогими, высокопроизводительными и всеобъемлющими характеристиками с открытым исходным кодом, несомненно, привносит сильную тенденцию «паритета» в поле генерации видео. Его появление не только сузило разрыв с помощью верхних моделей с закрытым исходным кодом, но и снизило порог для высококачественного генерации видео, что позволило большему количеству разработчиков участвовать и совместно способствовать разработке технологии генерации видео.
Репозиторий с открытым исходным кодом Github: https://github.com/hpcaitech/open-sora
Технический отчет: https://github.com/hpcaitech/open-sora-demo/blob/main/paper/open_sora_2_tech_report.pdf