Bilibili는 최근 Indextts라는 텍스트 음성 모델을 발표했습니다. 이 모델은 XTTS 및 거북이 기술을 기반으로하며 GPT 스타일 아키텍처를 채택합니다. 중국어 텍스트를 처리 할 때,이 혁신적인 시스템에는 고유 한 Pinyin Correction Chineser Correction Pronunciation 기능이 있으며 구두점을 통해 어느 위치에서나 일시 중지를 정확하게 제어 할 수 있습니다. 이 기술을 도입하면 텍스트 음성 연사 효과가 더 자연스럽고 매끄럽게 만들어 사용자 경험을 크게 향상시키고 광범위한 관심을 끌 수 있습니다.
수만 시간의 데이터 교육 후 Indextts 시스템은 XTTS, COSYVOICE2, FISH-STECH 및 F5-TTS와 같은 현재 인기있는 TTS 시스템을 능가하는 업계의 업계 리더십을 달성했습니다. 시스템의 여러 모듈은 특히 스피커 조건부 기능 표현 및 오디오 품질이 크게 향상되어 최적화되었습니다. 하이브리드 모델링을 도입함으로써 Indextts는 중국어를 빠르게 수정하여 사용자 경험을 더욱 향상시킬 수 있습니다.
이 모델은 최신 조건부 인코더와 BigVGAN2 기반 음성 디코더를 채택하여 교육의 안정성을 향상시킬뿐만 아니라 사운드의 유사성과 음질을 향상시킵니다. R & D 팀은 ARXIV에 관련 서류를 제출했으며 향후 몇 주 안에 모델 매개 변수 및 코드를 출시 할 계획이라고 밝혔다. 또한 Indextts는 여러 음절 어휘 및 연구원의 심층 분석을위한 주관적이고 객관적인 검토 세트를 포함하여 다양한 테스트 세트를 제공합니다.
Indextts는 여러 리뷰, 특히 단어 오류율 (WER) 및 스피커 유사성 (SS) 측면에서 잘 수행되어 많은 피어 모델을 능가했습니다. 예를 들어, 만다린 테스트에서 Indextts의 워드 오류율은 1.3%에 불과했으며, 이는 다른 모델의 성능보다 훨씬 낮으므로 정확도와 안정성을 보여줍니다. 동시에 음질 평가에서 Indextts의 MOS 점수도 4.01에 도달하여 우수한 음질과 톤을 보여줍니다.
기술의 지속적인 발전과 응용 프로그램 시나리오의 확장으로 Indextts의 출시는 텍스트 음성 기술의 발전을 더 높은 수준으로 향상시킵니다. 시스템에 대한 자세한 내용을 보려면 사용자는 관련 팀에 문의하여 자세한 사용자 경험 및 기술 지원을받을 수 있습니다.
프로젝트 주소 : https://github.com/index-tts/index-tts