Am 13. März veröffentlichte Sesame offiziell sein jüngstes Voice -Synthese -Modell CSM, das von der Branche schnell weit verbreitet wurde. Laut offizieller Einführung nimmt CSM eine von der Transformator basierende multimodale Lernarchitektur von End-to-End-Lernentwicklung an, die Kontextinformationen zutiefst verstehen und natürliche und emotionale Stimme generieren kann. Die Soundeffekte sind äußerst realistisch, fast die gleichen wie echte Menschen und erstaunlich.
Das CSM-Modell unterstützt nicht nur die Echtzeit-Sprachgenerierung, sondern behandelt auch Text- und Audioeingabe. Benutzer können Parameter anpassen, um Eigenschaften wie Ton, Ton, Rhythmus und Emotionen zu steuern und extrem hohe Flexibilität zu zeigen. Diese Fähigkeit zur personalisierten Sprachgenerierung ermöglicht es CSM, in einer Vielzahl von Anwendungsszenarien eine gute Leistung zu erzielen.
CSM gilt als ein großer Durchbruch im Bereich der AI -Sprachtechnologie. Seine Aussprache ist äußerst natürlich und erreicht sogar das Maß an "unbekannt als künstliche Synthese oder reale Person". Einige Benutzer haben ein Video aufgezeichnet, um zu zeigen, dass CSM fast keine Verzögerung hat und es "das stärkste Modell, das jemals erlebt wurde". Zuvor hatte Sesame die Quelle der kleinen Version von CSM-1B geöffnet, die mehrere Dialogrunden zur Generierung einer kohärenten Stimme unterstützt, die weit verbreitete Lob erhalten hat.
Derzeit hat CSM hauptsächlich für Englisch trainiert und sehr gut gespielt. CSM hat jedoch immer noch bestimmte Einschränkungen hinsichtlich der mehrsprachigen Unterstützung. Derzeit unterstützt das Modell Chinesen nicht, aber Sesam wird erwartet, dass es in Zukunft seine Sprachunterstützung erweitert, um den Anforderungen von mehr Benutzern zu erfüllen.
Sesam sagte auch, es werde seine Forschungsergebnisse eröffnen, eine Entscheidung, die hitzige Diskussionen unter den Gemeindeentwicklern über GitHub ausgelöst hat. CSM ist nicht nur für die KI der Konversation geeignet, sondern kann auch Innovationen in der Sprachinteraktionserfahrung in Bereichen wie Bildung und Unterhaltung fördern. Branchenkenner glauben im Allgemeinen, dass CSM die Standards von AI-Sprachassistenten neu gestalten und ein natürlicheres Erfahrung mit menschlichem Computer mitbringen kann.