Kürzlich kündigte Alibaba Tongyi Lab die Open Source seines neuesten Forschungs- und Entwicklungsergebnisses an - Vidorag, ein speziell für das Verständnis für visuelles Dokumenten entwickeltes Such -Enhanced -Generation -System (RAG). Vidorags Test am GPT-4O-Modell zeigte, dass seine Genauigkeitsrate beeindruckende 79,4% erreichte, was mehr als 10% höher ist als herkömmliche Lappensysteme. Dieser Durchbruch markiert einen wichtigen Schritt im Bereich der Verarbeitung visueller Dokumente und bietet neue Möglichkeiten für die Anwendung künstlicher Intelligenz im komplexen Verständnis des Dokuments.

Vidorag ist kein traditionelles Einzelmodell, nimmt aber ein innovatives Multi-Agent-Framework-Design an. Das System kombiniert dynamische iterative Inferenzmittel und Hybrid -Abruftechnologie basierend auf GMM (Gauß -Hybridmodell). Dieser Ansatz ermöglicht es Vidorag, Schlüsselinformationen genauer zu extrahieren und zu schließen, wenn visuelle Dokumente mit Bildern und Text enthalten. Im Vergleich zu den Einschränkungen herkömmlicher Lappensysteme, die sich ausschließlich auf das Abrufen von Text stützen, verbessert Vidorag die Leistung signifikant durch multimodale Datenfusion.
Tongyi Lab beschreibt detailliert, wie Vidorag in seinen veröffentlichten Papieren und dem Code -Repository arbeitet. Der Kern liegt darin, den Such- und Erzeugungsprozess dynamisch durch die Zusammenarbeit mehrerer Agenten anzupassen, wodurch die "Illusion" -Phänomene in komplexen Szenarien (d. H. Das Modell generiert ungenauen oder hergestellten Inhalte) und die Verbesserung der Zuverlässigkeit und Kontextrelevanz von Antworten.
Das System hat eine Genauigkeit von 79,4% bei GPT-4O, eine Zahl, die nicht nur seine hervorragende Leistung zeigt, sondern es auch mit traditionellen Lappensystemen vergleicht. Während traditionelle Lappensysteme bei Aufgaben der Textgenerierung gut abschneiden, sind sie häufig auf die Abruffähigkeit eines einzelnen Modus bei der Verarbeitung visueller Dokumente beschränkt, und ihre Genauigkeit schwebt normalerweise auf einem niedrigen Niveau. Vidorag hat die Genauigkeitsrate um mehr als 10 Prozentpunkte erhöht, indem sie eine tiefe Integration visueller Informationen und Textinformationen einführte. Dieser Fortschritt ist für Szenarien von großer Bedeutung, die ein hochpräzisetztes Dokumentenverständnis erfordern, wie z. B. Rechtsdokumentenanalyse, Interpretation des medizinischen Berichts und Unternehmensdatenverarbeitung.
Alibaba Tongyi Labs Wechsel zum Open Source Vidorag hat auch erhitzte Diskussionen auf Twitter ausgelöst. Benutzer glauben, dass die Offenlegung dieses Systems nicht nur Alibabas technische Stärke im Bereich der KI widerspiegelt, sondern auch eine wertvolle Ressource für globale Entwickler und Forscher bietet. Durch öffentliche Arbeiten und Codes (relevante Links wurden in Twitter -Posts geteilt) wird von Vidorag erwartet, dass er die Forschung und Anwendung der visuellen Dokumenten -Lag -Technologie beschleunigt und die Weiterentwicklung multimodaler KI -Systeme fördert.
Die Veröffentlichung und Open Source of Vidorag haben zweifellos neue Richtungen für die Lagentechnologie geöffnet. Angesichts der zunehmenden Nachfrage nach visueller Dokumentenverarbeitung ist die Entstehung von Vidorag möglicherweise nur der Anfang, und wir sehen möglicherweise, dass in Zukunft ähnliche innovative Systeme entstehen.
Projekt: https://github.com/alibaba-nlp/vidorag