B站文本转语音模型IndexTTS ：支持拼音纠正汉字发音、精准控制停顿 - AI文章

作者：Eve Cole 更新时间：2025-05-25 15:25:01

B站近日发布了一款名为IndexTTS的文本转语音模型，该模型基于XTTS和Tortoise技术，采用了GPT风格的架构。这一创新系统在处理中文文本时，具备独特的拼音纠正汉字发音功能，并且能够通过标点符号在任意位置精准控制停顿。这一技术的引入使得文本转语音的效果更加自然流畅，极大地提升了用户体验，受到了广泛关注。

IndexTTS系统经过数万小时的数据训练，已经在性能上实现了行业领先，超越了当前流行的TTS系统，如XTTS、CosyVoice2、Fish-Speech和F5-TTS等。系统的多个模块经过深度优化，特别是在扬声器条件特征表示和音频质量方面进行了显着改进。通过引入混合建模的方式，IndexTTS能够快速纠正误读的汉字，进一步提升了用户的使用体验。

该模型采用了最新的条件编码器和基于BigVGAN2的语音解码器，不仅提高了训练的稳定性，还增强了声音音色的相似性及音质。研发团队表示，他们已经在arXiv上提交了相关论文，并计划在未来几周内发布模型参数和代码。此外，IndexTTS还提供了多种测试集，包括多音节词汇以及主观和客观评测集，供研究者进行深入分析。

在多项评测中，IndexTTS表现出色，特别是在字词错误率（WER）和扬声器相似性（SS）方面，均优于许多同行模型。例如，在普通话的测试中，IndexTTS的字词错误率仅为1.3%，远低于其他模型的表现，显示出其强大的准确性和稳定性。同时，在音质评测中，IndexTTS的MOS评分也达到4.01，展示了其出色的音质和音色。

随着技术的不断进步和应用场景的扩展，IndexTTS的发布标志着文本转语音技术向更高水平迈进。有关该系统的更多信息，用户可以联系相关团队以获取详细的使用体验和技术支持。

项目地址：https://github.com/index-tts/index-tts