f5 tts swift 다운로드 f5 tts swift 소스 코드 다운로드

f5 tts swift

AI 소스 코드

0.0.6

다운로드

Swift의 F5 TT

MLX Swift 프레임 워크를 사용하여 SWIFT에서 F5-TTS 구현.

M3 Max MacBook Pro에서 ~ 11 초 안에 생성 된 샘플을들을 수 있습니다.

모델 아키텍처에 대한 자세한 내용은 Python 저장소를 참조하십시오.

이 저장소는 여기에서 사용 가능한 원래 Pytorch 구현을 기반으로합니다.

설치

F5TTS Swift 패키지는 Xcode 또는 SwiftPM에서 구축 및 실행할 수 있습니다.

포옹 페이스에서는 사전 치료 된 모델을 사용할 수 있습니다.

용법

import F5TTS

let f5tts = try await F5TTS . fromPretrained ( repoId : " lucasnewman/f5-tts-mlx " )

let generatedAudio = try await f5tts . generate ( text : " The quick brown fox jumped over the lazy dog. " )

결과는 24kHz 오디오 샘플이 포함 된 MLXARRAY입니다.

자신의 참조 오디오 샘플을 사용하려면 약 5-10 초의 모노, 24kHz WAV 파일인지 확인하십시오.

 let generatedAudio = try await f5tts . generate (
    text : " The quick brown fox jumped over the lazy dog. " ,
    referenceAudioURL : ... ,
    referenceAudioText : " This is the caption for the reference audio. "
)

다음과 같은 FFMPEG로 오디오 파일을 올바른 형식으로 변환 할 수 있습니다.

ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wav

감사

F5 TTS 및 사전 치료 모델의 원래 Pytorch 구현을위한 Yushen Chen.

이 모델이 기반으로하는 E2 TTS 구현을위한 Phil Wang.

인용

 @article { chen-etal-2024-f5tts ,
      title = { F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching } , 
      author = { Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen } ,
      journal = { arXiv preprint arXiv:2410.06885 } ,
      year = { 2024 } ,
}

 @inproceedings { Eskimez2024E2TE ,
    title   = { E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS } ,
    author  = { Sefik Emre Eskimez and Xiaofei Wang and Manthan Thakker and Canrun Li and Chung-Hsien Tsai and Zhen Xiao and Hemin Yang and Zirun Zhu and Min Tang and Xu Tan and Yanqing Liu and Sheng Zhao and Naoyuki Kanda } ,
    year    = { 2024 } ,
    url     = { https://api.semanticscholar.org/CorpusID:270738197 }
}