Das Soul-Voice-Modell wurde erheblich verbessert: End-to-End-Sprachanrufe in Echtzeit zwischen echten Menschen und virtuellen KI-Menschen sind so verwirrend!

Autor：Eve Cole Aktualisierungszeit：2025-03-06 01:00:03

Soul App hat kürzlich einen großen Durchbruch im Bereich „KI + Social“ geschafft! Der Herausgeber von Downcodes erfuhr, dass Soul offiziell bekannt gegeben hat, dass sein selbst entwickeltes End-to-End-Vollduplex-Sprachanrufmodell erneut verbessert wurde und natürliche und reibungslose Sprachgespräche mit virtuellen Menschen ermöglicht, die so natürlich und reibungslos sind wie echte Menschen. Dieser Schritt markiert einen wichtigen Schritt für Soul bei der Anwendung der KI-Technologie und bietet Benutzern ein immersiveres und interaktiveres soziales Erlebnis. Dieser Artikel befasst sich mit den einzigartigen Merkmalen dieses großen Modells und der Erforschung von Soul im sozialen KI-Bereich.

Auf dem inländischen „AI + Social“-Track ist Soul App dabei, KI zu nutzen, um neue Vitalität zu verleihen!

Kürzlich gab Soul offiziell bekannt, dass sein Sprachmodell erneut aktualisiert wurde und ein selbst entwickeltes End-to-End-Vollduplex-Sprachanrufmodell eingeführt wurde.

Der erstaunlichste Effekt dieses Upgrades besteht darin, dass der Sprachanruf zwischen dem Benutzer und der virtuellen Person so natürlich und reibungslos sein kann wie das Chatten mit einer realen Person!

Wie realistisch ist der Effekt? Schauen Sie sich zunächst das folgende Video an, um ein Gefühl dafür zu bekommen:

Ein offizielles Beispiel für „Echtzeitanrufe mit KI erleben“

Was ist das Besondere an Souls selbstentwickeltem End-to-End-Sprachanrufmodell? Zu seinen größten Highlights gehören laut offizieller Beschreibung:

Mit extrem geringer Interaktionslatenz
Schnelle automatische Unterbrechung
Superrealistischer Stimmausdruck
Emotionale Wahrnehmungs- und Verständnisfähigkeit usw.

Die Fähigkeit zur äußerst geringen Interaktionsverzögerung bedeutet, dass die KI in dem Moment, in dem Sie sprechen, sofort und ohne Verzögerung reagieren kann und die Entfernung zwischen Ihnen und der KI im Handumdrehen verkürzt werden kann. Wenn Sie echte Kommunikation damit führen möchten, müssen Sie überhaupt nicht warten, es ist so, als würden Sie mit einer echten Person sprechen.

Das große Sprachmodell von Soul unterstützt eine schnelle automatische Unterbrechung . Mit anderen Worten: Wenn Sie mit der KI kommunizieren und Sie unterbrechen möchten, kann diese vollständig verstehen, was Sie meinen, und die andere Partei leicht unterbrechen. Diese Art der Interaktion ist wirklich interessant!

In Verbindung mit einem ultrarealistischen Sprachausdruck und emotionalen Wahrnehmungs- und Verständnisfähigkeiten kann die KI schließlich nicht nur Ihre Worte verstehen, sondern auch Ihre Emotionen spüren und auf der Grundlage Ihrer Emotionen angemessene Antworten geben.

Basierend auf dem offiziellen Videobeispiel wird geschätzt, dass eine große Anzahl von Benutzern, wenn diese Funktion in Zukunft vollständig eingeführt wird, möglicherweise nicht in der Lage sein wird, zwischen echten Menschen und virtuellen KI-Menschen zu unterscheiden, wenn sie sie auf Soul erleben.

Soul sagte, dass sein umfassendes End-to-End-Sprachanrufmodell auf das Echtzeit-Anrufszenario „Echo of Another World“ (in internen Tests) angewendet wurde und auf mehrere KI-Begleitungs- und KI-Interaktionsszenarien wie KI ausgeweitet wird Gou Dan in der Zukunft.

Es wird davon ausgegangen, dass Soul bereits im Jahr 2020 mit der Forschung und Entwicklung der AIGC-Technologie begonnen hat, wobei der Schwerpunkt auf der Forschung und Entwicklung von Schlüsseltechnologien wie intelligentem Dialog, Sprachtechnologie und virtuellen Menschen liegt und diese KI-Fähigkeiten tief in soziale Szenarien integriert werden.

Beim Einsatz von KI zur Verbesserung der sozialen Interaktion legt Soul besonderen Wert darauf, ein anthropomorphes und natürliches emotionales Kameradschaftserlebnis zu erreichen.

Um den Benutzern ein besseres emotionales Feedback und eine bessere Kameradschaft zu bieten, hat das technische Team von Soul auf emotionales Verständnis und Verzögerungsprobleme geachtet. Sie haben selbst entwickelte Spracherzeugungsmodelle, Spracherkennungsmodelle, Sprachdialogmodelle, Musikerzeugungsmodelle usw. auf den Markt gebracht, die echte Tonerzeugung, Sprach-DIY, mehrsprachiges Umschalten, multiemotionalen immersiven Echtzeitdialog und andere Funktionen unterstützen Diese wurden bereits in mehreren Soul-Szenarien verwendet, wie zum Beispiel „AI Goudan“, „Werwolf Phantom“, KI-Sprach-Echtzeitinteraktion, „Echo from Another World“ usw.

Das von Soul selbst entwickelte End-to-End-Sprachanrufmodell ist jetzt online, was bedeutet, dass Benutzer eine natürlichere Interaktion zwischen Mensch und Computer genießen können. In Zukunft plant Soul außerdem, den Aufbau multimodaler End-to-End-Großmodellfunktionen weiter voranzutreiben, um die Interaktion zwischen Menschen und KI interessanter und immersiver zu gestalten.

Das AI-Technologie-Upgrade von Soul verbessert dieses Mal nicht nur das Benutzererlebnis, sondern liefert auch neue Ideen für die zukünftige Entwicklungsrichtung von „AI + Social“. Ich glaube, dass wir in naher Zukunft das Aufkommen innovativerer sozialer Anwendungen erleben werden, die auf KI-Technologie basieren und mehr Spaß und Komfort in das soziale Leben der Menschen bringen.