Bilibili hat kürzlich ein Text-to-Speech-Modell namens Indextts veröffentlicht. Dieses Modell basiert auf XTTs und Tortoise-Technologie und verwendet eine Architektur im GPT-Stil. Bei der Verarbeitung chinesischer Text verfügt dieses innovative System über eine einzigartige Pinyin -Korrektur chinesischer Zeichenaussprache und kann die Pausen an jeder Position durch Interpunktionsmarken genau steuern. Durch die Einführung dieser Technologie wird der Text-zu-Sprach-Effekt natürlicher und reibungsloser, was die Benutzererfahrung erheblich verbessert und weit verbreitete Aufmerksamkeit erregt.
Nach Zehntausenden von Stunden Datentraining hat das INDEXTTS-System Branchenführung bei der Leistung erreicht und die aktuellen beliebten TTS-Systeme wie XTTs, Cosyvoice2, Fish-Speech und F5-TTS übertreffen. Mehrere Module des Systems wurden zutiefst optimiert, insbesondere mit signifikanten Verbesserungen der reditionalen Repräsentation der Lautsprecher und der Audioqualität. Durch die Einführung von hybriden Modellierung können INDEXTTTS die chinesischen Charaktere schnell falsch verstanden und die Benutzererfahrung weiter verbessert.
Das Modell nimmt den neuesten bedingten Encoder und den Bigvgan2-basierten Sprachdecoder an, der nicht nur die Stabilität des Trainings verbessert, sondern auch die Ähnlichkeit und die Klangqualität des Klangs verbessert. Das F & E -Team sagte, es habe relevante Artikel über Arxiv eingereicht und plant, Modellparameter und Code in den nächsten Wochen zu veröffentlichen. Darüber hinaus stellt INDEXTTS auch eine Vielzahl von Testsätzen bereit, einschließlich mehrsilbiger Vokabular sowie subjektive und objektive Überprüfungssätze für eingehende Analysen durch Forscher.
INDEXTTS hat in mehreren Überprüfungen gut abgebildet, insbesondere in Bezug auf die Wortfehlerrate (WOR) und die Lautsprecherähnlichkeit (SS), die viele Peer -Modelle übertroffen haben. Beispielsweise betrug die Wortfehlerrate von INDEXTTS bei Mandarin -Tests nur 1,3%, was viel niedriger ist als die Leistung anderer Modelle und zeigt seine starke Genauigkeit und Stabilität. Gleichzeitig erreichte INDEXTTS 'MOS -Score in der Schallqualitätsbewertung ebenfalls 4,01 und zeigte seine hervorragende Klangqualität und -ton.
Mit der kontinuierlichen Weiterentwicklung der Technologie und der Ausweitung von Anwendungsszenarien markiert die Veröffentlichung von INDEXTTS die Weiterentwicklung der Text-zu-Sprache-Technologie auf einem höheren Niveau. Für weitere Informationen zum System können Benutzer das entsprechende Team für detaillierte Benutzererfahrung und technische Unterstützung wenden.
Projektadresse: https://github.com/index-tts/index-tts