Głosik
Głosik ( "GWOH-SEEK"로 발음)는 MLX Swift를 사용하여 F5-TTS 텍스트 음성 시스템을 보여주는 예제 앱입니다. 이름은 폴란드어 단어 "głos"(음성)에서 유래 한 접미사 "-ik"가 있습니다.
구현의 원래 저장소는 다음과 같습니다. https://github.com/lucasnewman/f5-tts-swift
f5tts_demo.mp4
위의 데모를보고 Głosik이 작동하는 것을보십시오!
요구 사항
- MACOS 14.0 이상
- iOS 16.0 이상
- Visionos 1.0 이상
- Xcode 15.0 이상
- 스위프트 5.9 이상
설치
- 저장소를 복제하십시오
- xcode에서
Glosik.xcodeproj 엽니 다 - 프로젝트를 구축하고 실행하십시오
용법
- 연설로 변환하려는 텍스트를 입력하십시오
- (선택 사항) 참조 오디오 샘플을 기록하거나 선택하십시오.
- "참조"탭으로 이동하십시오
- 새 오디오 샘플을 기록하고 참조 텍스트를 제공하십시오
- 참조 샘플로 저장하십시오
- "Generate"탭의 참조 피커에서 선택하십시오.
- "음성 생성"을 클릭하여 오디오를 만듭니다
- 재생 컨트롤을 사용하여 생성 된 연설을 들으십시오.
- 생성 된 오디오를 WAV 파일로 저장하십시오
특징
텍스트 음성 연석 생성
- F5-TTS 모델을 사용한 고품질 음성 합성
- 실시간 생성 진행 상황 추적
- 생성 타이밍 통계
- GPU 메모리 사용 모니터링
참조 오디오 지원
- 함께 제공되는 텍스트가 포함 된 새로운 참조 샘플을 기록하십시오
- 저장된 참조 샘플을 관리합니다
- 언어 생성에 대한 참조 샘플을 선택하십시오
- 참조 샘플을 재생하십시오
- 모노, 24kHz WAV 형식에 대한 지원
현대 UI
- 기본 Swiftui 인터페이스
- 분할 내비게이션
- 다크 모드 지원
- 크로스 플랫폼 지원 (MacOS, iOS, VisionOS)
- 접근성 기능
프로젝트 구조
프로젝트는 두 가지 주요 부분으로 나뉩니다.
-
Glosik : 주요 응용 프로그램 -
GlosikUI : 재사용 가능한 Swiftui 구성 요소 패키지
특허
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오.