B站近日发布了一款名为IndexTTS的文本转语音模型,该模型基于XTTS和Tortoise技术,采用了GPT风格的架构。这一创新系统在处理中文文本时,具备独特的拼音纠正汉字发音功能,并且能够通过标点符号在任意位置精准控制停顿。这一技术的引入使得文本转语音的效果更加自然流畅,极大地提升了用户体验,受到了广泛关注。
IndexTTS系统经过数万小时的数据训练,已经在性能上实现了行业领先,超越了当前流行的TTS系统,如XTTS、CosyVoice2、Fish-Speech和F5-TTS等。系统的多个模块经过深度优化,特别是在扬声器条件特征表示和音频质量方面进行了显着改进。通过引入混合建模的方式,IndexTTS能够快速纠正误读的汉字,进一步提升了用户的使用体验。
该模型采用了最新的条件编码器和基于BigVGAN2的语音解码器,不仅提高了训练的稳定性,还增强了声音音色的相似性及音质。研发团队表示,他们已经在arXiv上提交了相关论文,并计划在未来几周内发布模型参数和代码。此外,IndexTTS还提供了多种测试集,包括多音节词汇以及主观和客观评测集,供研究者进行深入分析。
在多项评测中,IndexTTS表现出色,特别是在字词错误率(WER)和扬声器相似性(SS)方面,均优于许多同行模型。例如,在普通话的测试中,IndexTTS的字词错误率仅为1.3%,远低于其他模型的表现,显示出其强大的准确性和稳定性。同时,在音质评测中,IndexTTS的MOS评分也达到4.01,展示了其出色的音质和音色。
随着技术的不断进步和应用场景的扩展,IndexTTS的发布标志着文本转语音技术向更高水平迈进。有关该系统的更多信息,用户可以联系相关团队以获取详细的使用体验和技术支持。
项目地址:https://github.com/index-tts/index-tts