การใช้งาน F5-TTS ใน Swift โดยใช้ MLX Swift Framework
คุณสามารถฟังตัวอย่างที่นี่ที่สร้างขึ้นใน ~ 11 วินาทีบน M3 Max MacBook Pro
ดูที่เก็บ Python สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับสถาปัตยกรรมแบบจำลอง
ที่เก็บนี้ขึ้นอยู่กับการใช้งาน Pytorch ดั้งเดิมที่มีอยู่ที่นี่
แพ็คเกจ F5TTS SWIFT สามารถสร้างและเรียกใช้จาก XCODE หรือ SWIFTPM
รูปแบบที่ผ่านการฝึกอบรมมีอยู่ใน HuggingFace
import F5TTS
let f5tts = try await F5TTS . fromPretrained ( repoId : " lucasnewman/f5-tts-mlx " )
let generatedAudio = try await f5tts . generate ( text : " The quick brown fox jumped over the lazy dog. " )ผลที่ได้คือ mlxarray ที่มีตัวอย่างเสียง 24kHz
หากคุณต้องการใช้ตัวอย่างเสียงอ้างอิงของคุณเองตรวจสอบให้แน่ใจว่าเป็นไฟล์ Mono, 24KHz WAV ประมาณ 5-10 วินาที:
let generatedAudio = try await f5tts . generate (
text : " The quick brown fox jumped over the lazy dog. " ,
referenceAudioURL : ... ,
referenceAudioText : " This is the caption for the reference audio. "
)คุณสามารถแปลงไฟล์เสียงเป็นรูปแบบที่ถูกต้องด้วย ffmpeg เช่นนี้:
ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wavYushen Chen สำหรับการใช้งาน Pytorch ดั้งเดิมของ F5 TTS และแบบจำลองที่ผ่านการฝึกอบรม
Phil Wang สำหรับการใช้งาน E2 TTS ว่าแบบจำลองนี้มีพื้นฐานมาจาก
@article { chen-etal-2024-f5tts ,
title = { F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching } ,
author = { Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen } ,
journal = { arXiv preprint arXiv:2410.06885 } ,
year = { 2024 } ,
} @inproceedings { Eskimez2024E2TE ,
title = { E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS } ,
author = { Sefik Emre Eskimez and Xiaofei Wang and Manthan Thakker and Canrun Li and Chung-Hsien Tsai and Zhen Xiao and Hemin Yang and Zirun Zhu and Min Tang and Xu Tan and Yanqing Liu and Sheng Zhao and Naoyuki Kanda } ,
year = { 2024 } ,
url = { https://api.semanticscholar.org/CorpusID:270738197 }
}รหัสในที่เก็บนี้จะถูกเผยแพร่ภายใต้ใบอนุญาต MIT ตามที่พบในไฟล์ใบอนุญาต