Seit der Geburt von sora, das eine neue Ära des KI-Videos einläutete, haben sich nach und nach große Player im In- und Ausland dem KI-Videowettbewerb angeschlossen. Aber wie gehen wir beim Eintritt in diese neue Ära interaktiverer, immersiverer Videos mit den Kosten-, Qualitäts- und Leistungsherausforderungen um?
Am 15. Oktober veröffentlichten Volcano Engine und Intel auf der Video Cloud Technology Conference gemeinsam eine Lösung zur Vorverarbeitung von Schulungsvideos für große Modelle. Ein Reporter von „Daily Economic News“ erfuhr auf der Pressekonferenz, dass diese technische Lösung auf das Bean-Bag-Videogenerierungsmodell angewendet wurde.
Auf der Pressekonferenz stellte Li Hang, Leiter von Bytedance Research, vor, dass das Doubao-Videogenerierungsmodell PixelDance während des Trainingsprozesses die große Modell-Trainingsvideo-Vorverarbeitungslösung der Volcano Engine übernommen hat, wodurch eine große Anzahl von Gezeitenressourcen vollständig genutzt und starke Unterstützung bereitgestellt wird für die Modellausbildung.
Darüber hinaus enthüllte Wang Yue, Leiter der Videoarchitektur der Douyin Group, die neuesten Fortschritte des von Byte selbst entwickelten Video-Codec-Chips: Nach Überprüfung durch die interne Praxis der Douyin Group spart dieser Chip bei gleicher Videokomprimierung mehr als 95 % der Kosten Effizienz.
„Erstens hat der extrem große Video-Trainingsdatensatz zu einem Anstieg der Rechen- und Verarbeitungskosten geführt.“ Wang Yue wies darauf hin, dass große Modellhersteller im Vorverarbeitungsprozess vor vielen Herausforderungen stehen Die Beispieldaten sind ungleichmäßig und es gibt viele Verarbeitungsverbindungen. Das Projekt ist komplex und steht schließlich vor der Planung und Bereitstellung mehrerer heterogener Computerressourcen wie GPU, CPU und ARM.“
Selbstentwickeltes Multimedia-Verarbeitungsframework
Auf der Volcano Engine AI Innovation Tour am 24. September wurden zwei große Sitzsack-Videogenerationsmodelle, PixelDance und Seaweed, gemeinsam veröffentlicht und erregten die Aufmerksamkeit von Menschen innerhalb und außerhalb der Branche. Tatsächlich enden die Bemühungen von ByteDance bei Videogenerierungsmodellen hier nicht.
Am 15. Oktober veröffentlichte Volcano Engine eine Videovorverarbeitungslösung für große Modellschulungen, die sich der Lösung technischer Herausforderungen in Bezug auf Kosten, Qualität und Leistung von Videoschulungen für große Modelle widmet.
Berichten zufolge ist die Vorverarbeitung von Trainingsvideos eine wichtige Voraussetzung, um die Wirkung eines großen Modelltrainings sicherzustellen. Der Vorverarbeitungsprozess kann das Datenformat des Videos vereinheitlichen, die Datenqualität verbessern, die Daten standardisieren, die Datenmenge reduzieren und Anmerkungsinformationen verarbeiten, sodass das Modell die Funktionen und Kenntnisse im Video effizienter erlernen und das Training verbessern kann Wirkung und Effizienz.
Beim Training von Videogenerierungsmodellen sind die Kosten für die Rechenleistung zweifellos die größte Herausforderung.
Ein Algorithmusingenieur eines inländischen Videogenerierungsmodells sagte in einem Interview mit einem Reporter von „Daily Economic News“, dass Videomodelle mit hochwertigen Daten schwieriger zu trainieren seien als große Sprachmodelle und mehr Rechenleistung erfordern „Die bekannten Open-Source-Videomodelle sind nicht besonders groß, hauptsächlich weil sich viele Videomodelle derzeit in einem Stadium befinden, in dem sie nicht wissen, wie man Daten verwendet, und es nicht viele qualitativ hochwertige Daten (für das Training) gibt.“
Untersuchungen des Informatikers Matthias Plappert zeigen auch, dass das Training von Sora eine enorme Rechenleistung erfordert. Im Trainingsprozess dauert das Training auf 4.200 bis 10.500 Nvidia H100s Die Kosten werden nach der Schulungssitzung schnell steigen.
Um das Problem der Kostenreduzierung zu lösen, verlässt sich Volcano Engine auf Intels CPU und andere Ressourcen, um sich auf seine große Modellschulungsvideo-Vorverarbeitungslösung auf seinem selbst entwickelten Multimedia-Verarbeitungs-Framework zu verlassen. Wang Yue sagte, dass die Lösung auch in Bezug auf Algorithmen und Technik optimiert wurde und eine hochwertige Vorverarbeitung riesiger Videodaten durchführen, eine effiziente Zusammenarbeit von Verarbeitungsverbindungen in kurzer Zeit erreichen und die Effizienz des Modelltrainings verbessern kann.
In Bezug auf die Anwendung dieser Lösung gab Li Hang auf der Pressekonferenz bekannt, dass das Sitzsack-Videogenerierungsmodell PixelDance diese Lösung während des Trainingsprozesses übernommen hat. Gleichzeitig bietet die vom Volcano Engine Video Cloud-Team bereitgestellte On-Demand-Lösung auch einen One-Stop-Service für den gesamten Lebenszyklus der von PixelDance produzierten Videos, von der Bearbeitung, dem Hochladen, der Transkodierung, der Verteilung und der Wiedergabe, und gewährleistet so die kommerzielle Anwendung des Modells.
Darüber hinaus veröffentlichte Volcano Engine auf dieser Konferenz auch eine sprachübergreifende Simultan-Live-Übertragungslösung, eine multimodale Videoverständnis- und -generierungslösung, eine Konversations-KI-Echtzeit-Interaktionslösung und eine AIG3D- und große Szenenrekonstruktionslösung Produktionsende des Videos, vom interaktiven Ende bis zum Verbraucherende, die gesamte Verbindung integriert KI-Funktionen.
Wohin entwickelt sich KI-Video?
KI verändert die Art und Weise, wie Menschen Informationen produzieren, verbreiten und empfangen, in jeder Hinsicht. Unter anderem haben die aufkommenden neuen Videotechnologien Menschen aus der Welt der reibungslosen und hochauflösenden Daten in die KI-Welt mit intelligenteren und interaktiveren Erlebnissen geführt.
Im Juli dieses Jahres brachte SenseTime Vimi auf den Markt, das erste große steuerbare Charakter-Videogenerierungsmodell für C-End-Benutzer; im August veröffentlichte MiniMax das Videogenerierungsmodell Video-1; Keling AI schloss seine neunte Iteration ab und veröffentlichte „KeLing 1.5“. Modell“, stellte Alibaba Cloud auf der Yunqi-Konferenz ein neues Videogenerierungsmodell vor, und Byte veröffentlichte außerdem zwei Videogenerierungsmodelle. Die Geburt und Iteration von KI-Videoprodukten dauert fast Monate.
In Bezug auf die „Explosion“ von KI-Videoprodukten sagte Wang Peng, ein assoziierter Forscher an der Pekinger Akademie der Sozialwissenschaften, in einem Interview mit einem Reporter von „Daily Economic News“, dass sich inländische KI-Videoprodukte in einer Phase rasanter Entwicklung befänden Kontinuierliche Iteration, hauptsächlich aufgrund der starken Marktnachfrage und einer breiten Palette von Anwendungsszenarien und verschiedenen Kommerzialisierungsmodellen.
Derzeit werden KI-Videoprodukte auf dem Markt hauptsächlich in den Bereichen Film und Fernsehen, E-Commerce-Marketing und anderen Bereichen eingesetzt. Im Juli dieses Jahres haben Jimeng AI und Bona Pictures beispielsweise zusammengearbeitet, um die erste generative kontinuierliche AIGC des Landes auf den Markt zu bringen Im September dieses Jahres startete Kuaishou zusammen mit neun bekannten Regisseuren, darunter Jia Zhangke und Li Shaohong, das Co-Creation-Projekt „Keling AI“.
Pan Helin, Mitglied des Expertenausschusses für Informations- und Kommunikationswirtschaft des Ministeriums für Industrie und Informationstechnologie, wies den Reporter von „Daily Economic News“ darauf hin, dass sich einige KI-Videoprodukte derzeit in der Einführungsphase befinden und schwierig einzuführen sind „Derzeit scheinen Open-Source-Produkte (KI-Videoprodukte) beliebter zu sein als Closed-Source-Produkte, da die Kosten für die Erstellung von KI-Videos hoch sind und Videoproduzenten oft nicht über die nötigen Mittel verfügen Auf das Terminal heruntergeladene Quell-KI-Algorithmen können Videos besser produzieren und generieren.
Seiner Ansicht nach weisen KI-Videoprodukte derzeit vor allem zwei Hindernisse auf: Rechenleistung und Compliance-Risiken. „Algorithmen, Rechenleistung und Daten verlangen von Unternehmen, dass sie mehr Ressourcen und Zeit investieren. Eine weitere Schwierigkeit liegt in Compliance-Risiken Privatsphäre“, erklärte er.
Darüber hinaus äußerte Chen Chen, Forschungspartner von Analysys Analysis, in einem Interview mit einem Reporter von „Daily Economic News“ auch Bedenken hinsichtlich der kurzfristigen Monetarisierungsfähigkeit großer Videogenerierungsmodelle „aufgrund der hohen Modelltrainings- und Inferenzkosten großer KI.“ Modelle, gepaart mit der C-Seite Die Nachfrage der Benutzer nach KI-Tools ist relativ verstreut und ihre Zahlungsbereitschaft ist unzureichend. Die Kommerzialisierung großer Videomodelle auf dem C-End-Markt wird noch eine lange Wachstumsphase vor sich haben.
Die Ära des KI-Videos ist angebrochen, aber auch die Frage, wie man Kosten senken, die Effizienz steigern und mehr Märkte erobern kann, wird für große Internet- und Technologieunternehmen zu einer wichtigen Aufgabe werden.