Реализация F5-TTS в Swift, используя MLX Swift Framework.
Вы можете прослушать образец здесь, который был сгенерирован за ~ 11 секунд на M3 Max Macbook Pro.
См. Репозиторий Python для получения дополнительной информации об архитектуре модели.
Этот репозиторий основан на оригинальной реализации Pytorch, доступной здесь.
Пакет F5TTS Swift может быть построен и запустить из XCODE или SWIFTPM.
Предварительная модель доступна на Huggingface.
import F5TTS
let f5tts = try await F5TTS . fromPretrained ( repoId : " lucasnewman/f5-tts-mlx " )
let generatedAudio = try await f5tts . generate ( text : " The quick brown fox jumped over the lazy dog. " )Результатом является Mlxarray с 24 кГц образцами звука.
Если вы хотите использовать свой собственный образец справочного аудио, убедитесь, что это моно, 24 кГц-вав, около 5-10 секунд:
let generatedAudio = try await f5tts . generate (
text : " The quick brown fox jumped over the lazy dog. " ,
referenceAudioURL : ... ,
referenceAudioText : " This is the caption for the reference audio. "
)Вы можете преобразовать аудиофайл в правильный формат с FFMPEG, например:
ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wavYushen Chen для оригинальной реализации Pytorch F5 TTS и предварительной модели.
Фил Ван для реализации E2 TTS, на которой основана эта модель.
@article { chen-etal-2024-f5tts ,
title = { F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching } ,
author = { Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen } ,
journal = { arXiv preprint arXiv:2410.06885 } ,
year = { 2024 } ,
} @inproceedings { Eskimez2024E2TE ,
title = { E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS } ,
author = { Sefik Emre Eskimez and Xiaofei Wang and Manthan Thakker and Canrun Li and Chung-Hsien Tsai and Zhen Xiao and Hemin Yang and Zirun Zhu and Min Tang and Xu Tan and Yanqing Liu and Sheng Zhao and Naoyuki Kanda } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:270738197 }
}Код в этом репозитории выпускается по лицензии MIT, как найдено в файле лицензии.