Forscher der National University of Singapore und der Purdue University haben eine bahnbrechende Technologie namens PAB entwickelt, die eine Echtzeitverarbeitung der Videogenerierung basierend auf Diffusionstransformation ermöglicht. Diese Technologie basiert auf dem Diffusion Transformer (DiT)-Modell und verbessert die Geschwindigkeit der Videoerzeugung um das 10,6-fache, indem redundante Aufmerksamkeitsberechnungen reduziert werden, und erreicht erstaunliche 21,6 Bilder pro Sekunde. PAB kann ohne zusätzliche Schulung auf mehrere gängige DiT-Videogenerierungsmodelle wie Open-Sora, Open-Sora-Plan und Latte angewendet werden und bildet so eine solide Grundlage für zukünftige Echtzeit-Videogenerierungstechnologie. Es verbessert nicht nur die Verarbeitungsgeschwindigkeit erheblich, sondern reduziert auch den Kommunikationsaufwand zwischen mehreren GPUs erheblich und stellt gleichzeitig die Videoqualität sicher, wodurch effizientere verteilte Inferenzfunktionen für die Echtzeit-Videogenerierung bereitgestellt werden. Im Folgenden finden Sie eine detailliertere Erläuterung der PAB-Technologie.
Kürzlich haben Forscher der National University of Singapore und der Purdue University erfolgreich die PAB-Technologie vorgeschlagen, um eine Echtzeitverarbeitung der Videoerzeugung auf Basis der Diffusionsumwandlung zu erreichen.
Produkteingang: https://top.aibase.com/tool/pab
Diese Technologie ist der erste Versuch eines auf Diffusion Transformer (DiT) basierenden Videogenerierungsmodells, das eine Generierungsgeschwindigkeit von bis zu 21,6 Bildern pro Sekunde durch Reduzierung redundanter Aufmerksamkeitsberechnungen und eine 10,6-fache Beschleunigung ohne Qualitätseinbußen erreicht. Funktioniert mit mehreren gängigen DiT Videogenerierungsmodelle, einschließlich Open-Sora, Open-Sora-Plan und Latte. PAB ist eine schulungsfreie Methode, die zukünftige DiT-Videogenerierungsmodelle mit Echtzeitgenerierungsfunktionen ausstatten kann. PAB erfordert keine Schulung und kann jedem zukünftigen, auf Diffusionstransformation basierenden Videogenerierungsmodell die Fähigkeit verleihen, in Echtzeit zu verarbeiten.

Wichtige Funktionen:
Die PAB-Aufmerksamkeitsübertragung verbessert die Geschwindigkeit der Videogenerierung erheblich, indem redundante Aufmerksamkeitsberechnungen reduziert werden, und erreicht eine Echtzeitgenerierung.
Basierend auf der Stabilität und dem Unterschied der Aufmerksamkeit legt PAB unterschiedliche Sendebereiche für unterschiedliche Arten der Aufmerksamkeit fest, wodurch Qualitätsverluste minimiert und gleichzeitig die Recheneffizienz sichergestellt wird.
Durch die Verbesserung der sequenzparallelen Verarbeitungstechnologie reduziert PAB den Kommunikationsaufwand zwischen mehreren GPUs und verbessert die Geschwindigkeit und Effizienz der Videogenerierung weiter.
Die Forscher fanden heraus, dass es offensichtliche Unterschiede zwischen den Zeitschritten im Aufmerksamkeitsmechanismus im Videodiffusionstransformationsmodell gibt. Durch diese Entdeckung wurde PAB vorgeschlagen, um unnötige Aufmerksamkeitsberechnungen zu vermeiden. Im stabilen Mittelteil überträgt PAB die Aufmerksamkeitsleistung eines Diffusionsschritts auf mehrere nachfolgende Schritte, wodurch der Rechenaufwand erheblich reduziert wird. Darüber hinaus werden für eine effizientere Berechnung und die Minimierung von Qualitätsverlusten unterschiedliche Sendebereiche für unterschiedliche Aufmerksamkeitstypen festgelegt.
Um die Geschwindigkeit der Videoerzeugung weiter zu verbessern, verbesserten die Forscher die Parallelverarbeitungsmethode auf Basis der dynamischen Sequenzparallelität (DSP), wodurch der Großteil des Kommunikations-Overheads durch Übertragung der Zeitaufmerksamkeit eliminiert und eine Reduzierung des Kommunikations-Overheads um mehr als 50 % erreicht wurde bereitgestellte Echtzeit-Videogenerierung Bietet effizientere verteilte Inferenzfunktionen.
Höhepunkte:
⭐ Die PAB-Technologie ermöglicht die Videogenerierung in Echtzeit und beschleunigt die Verarbeitungsgeschwindigkeit um das 10,6-fache.
⭐ Durch Beobachtung des Unterschieds im Aufmerksamkeitsmechanismus des Videodiffusionskonvertierungsmodells wird PAB vorgeschlagen, um unnötige Aufmerksamkeitsberechnungen zu vermeiden.
⭐ Durch die Verbesserung der Parallelverarbeitungsmethode wird der Kommunikationsaufwand erheblich reduziert, wodurch effizientere verteilte Inferenzfunktionen für die Echtzeit-Videogenerierung bereitgestellt werden.
Das Aufkommen der PAB-Technologie stellt einen großen Durchbruch in der Echtzeit-Videogenerierungstechnologie dar, die leistungsstarke Echtzeitverarbeitungsfunktionen für zukünftige Videogenerierungsmodelle auf Basis der Diffusionskonvertierung bietet und die Anwendungsaussichten künstlicher Intelligenz im Videobereich weiter erweitert. Man geht davon aus, dass die PAB-Technologie in Zukunft eine immer wichtigere Rolle im Bereich der Videogenerierung spielen wird.