f5 tts mlx
0.2.3

使用MLX框架实现F5-TT。
F5 TTS是使用带有扩散变压器(DIT)的流量匹配MEL频谱发电机的非自动回忆性,零击文本对语音系统。
您可以在此处收听在M3 Max MacBook Pro上在11秒内生成的示例。
F5是E2 TTS的演变,并通过Convnext V2块提高了性能,以进行学习文本对齐。该存储库基于此处可用的原始Pytorch实现。
pip install f5-tts-mlxpython -m f5_tts_mlx.generate --text " The quick brown fox jumped over the lazy dog. "您还可以使用管道从另一个过程的输出中生成语音,例如从语言模型中:
mlx_lm.generate --model mlx-community/Llama-3.2-1B-Instruct-4bit --verbose false
--temp 0 --max-tokens 512 --prompt " Write a concise paragraph explaning wavelets. "
| python -m f5_tts_mlx.generate如果您想使用自己的参考音频示例,请确保它是一个大约5-10秒的单声道24kHz WAV文件:
python -m f5_tts_mlx.generate
--text " The quick brown fox jumped over the lazy dog. "
--ref-audio /path/to/audio.wav
--ref-text " This is the caption for the reference audio. "您可以使用这样的ffmpeg将音频文件转换为正确的格式:
ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wav有关自定义生成的更多选项,请参见此处。
如果您处于带宽或内存限制的环境中,则可以使用--q选项来加载模型的量化版本。支持4位和8位变体。
python -m f5_tts_mlx.generate --text " The quick brown fox jumped over the lazy dog. " --q 4您可以从Python加载预贴模型:
from f5_tts_mlx . generate import generate
audio = generate ( text = "Hello world." , ...)预处理的模型重量也可以在拥抱脸上使用。
Yushen Chen用于F5 TTS的原始Pytorch实施和预验证的模型。
Phil Wang用于该模型所基于的E2 TTS实现。
@article { chen-etal-2024-f5tts ,
title = { F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching } ,
author = { Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen } ,
journal = { arXiv preprint arXiv:2410.06885 } ,
year = { 2024 } ,
} @inproceedings { Eskimez2024E2TE ,
title = { E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS } ,
author = { Sefik Emre Eskimez and Xiaofei Wang and Manthan Thakker and Canrun Li and Chung-Hsien Tsai and Zhen Xiao and Hemin Yang and Zirun Zhu and Min Tang and Xu Tan and Yanqing Liu and Sheng Zhao and Naoyuki Kanda } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:270738197 }
}该存储库中的代码按照许可证文件中的MIT许可发布。