f5 tts mlx 다운로드 f5 tts mlx 소스 코드 다운로드

f5 tts mlx

AI 소스 코드

0.2.3

다운로드

F5 TTS 다이어그램

F5 TTS - MLX

MLX 프레임 워크와 함께 F5-TT의 구현.

F5 TTS는 확산 변압기 (DIT)가있는 유량 매칭 MEL 스펙트로 그램 생성기를 사용하는 비 유포리의 제로 샷 텍스트 음성 음성 시스템입니다.

M3 Max MacBook Pro에서 ~ 11 초 안에 생성 된 샘플을들을 수 있습니다.

F5는 E2 TTS의 진화이며 학습 된 텍스트 정렬에 대한 CONBNEXT V2 블록으로 성능을 향상시킵니다. 이 저장소는 여기에서 사용 가능한 원래 Pytorch 구현을 기반으로합니다.

설치

pip install f5-tts-mlx

기본 사용

python -m f5_tts_mlx.generate --text " The quick brown fox jumped over the lazy dog. "

또한 파이프를 사용하여 다른 프로세스의 출력 (예 : 언어 모델)에서 음성을 생성 할 수 있습니다.

mlx_lm.generate --model mlx-community/Llama-3.2-1B-Instruct-4bit --verbose false 
 --temp 0 --max-tokens 512 --prompt " Write a concise paragraph explaning wavelets. " 
| python -m f5_tts_mlx.generate

음성 일치

자신의 참조 오디오 샘플을 사용하려면 약 5-10 초의 모노, 24kHz WAV 파일인지 확인하십시오.

python -m f5_tts_mlx.generate 
--text " The quick brown fox jumped over the lazy dog. " 
--ref-audio /path/to/audio.wav 
--ref-text " This is the caption for the reference audio. "

다음과 같은 FFMPEG로 오디오 파일을 올바른 형식으로 변환 할 수 있습니다.

ffmpeg -i /path/to/audio.wav -ac 1 -ar 24000 -sample_fmt s16 -t 10 /path/to/output_audio.wav

생성을 사용자 정의 할 수있는 더 많은 옵션은 여기를 참조하십시오.

양자화 된 모델

대역폭 또는 메모리 제한 환경에있는 경우 --q 옵션을 사용하여 양자화 된 버전의 모델을로드 할 수 있습니다. 4 비트 및 8 비트 변형이 지원됩니다.

python -m f5_tts_mlx.generate --text " The quick brown fox jumped over the lazy dog. " --q 4

파이썬에서

Python에서 사전 고정 된 모델을로드 할 수 있습니다.

 from f5_tts_mlx . generate import generate

audio = generate ( text = "Hello world." , ...)

포옹 얼굴에서 사전 예방 된 모델 무게도 사용할 수 있습니다.

감사

F5 TTS 및 사전 치료 모델의 원래 Pytorch 구현을위한 Yushen Chen.

이 모델이 기반으로하는 E2 TTS 구현을위한 Phil Wang.

인용

 @article { chen-etal-2024-f5tts ,
      title = { F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching } , 
      author = { Yushen Chen and Zhikang Niu and Ziyang Ma and Keqi Deng and Chunhui Wang and Jian Zhao and Kai Yu and Xie Chen } ,
      journal = { arXiv preprint arXiv:2410.06885 } ,
      year = { 2024 } ,
}

 @inproceedings { Eskimez2024E2TE ,
    title   = { E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS } ,
    author  = { Sefik Emre Eskimez and Xiaofei Wang and Manthan Thakker and Canrun Li and Chung-Hsien Tsai and Zhen Xiao and Hemin Yang and Zirun Zhu and Min Tang and Xu Tan and Yanqing Liu and Sheng Zhao and Naoyuki Kanda } ,
    year    = { 2024 } ,
    url     = { https://api.semanticscholar.org/CorpusID:270738197 }
}