Głosik
Głosik (diucapkan "GWOH-SEEW") adalah contoh aplikasi untuk menampilkan sistem teks-ke-speech F5-TTS menggunakan MLX Swift. Nama itu berasal dari kata Polandia "głos" (suara) dengan akhiran kecil "-ik".
Berikut adalah repositori asli implementasi: https://github.com/lucasnewman/f5-tts-swift
F5tts_demo.mp4
Tonton demo di atas untuk melihat Głosik beraksi!
Persyaratan
- MacOS 14.0 atau lebih baru
- iOS 16.0 atau lebih baru
- visionos 1.0 atau lebih baru
- Xcode 15.0 atau lebih baru
- Swift 5.9 atau yang lebih baru
Instalasi
- Klon Repositori
- Buka
Glosik.xcodeproj di Xcode - Membangun dan menjalankan proyek
Penggunaan
- Masukkan teks yang ingin Anda konversi ke ucapan
- (Opsional) Catat atau pilih sampel audio referensi:
- Buka tab "Referensi"
- Rekam sampel audio baru dan berikan teks referensi
- Simpan sebagai sampel referensi
- Pilih dari pemilih referensi di tab "Generate"
- Klik "Hasilkan Pidato" untuk membuat audio
- Gunakan kontrol pemutaran untuk mendengarkan pidato yang dihasilkan
- Simpan audio yang dihasilkan sebagai file wav
Fitur
Generasi teks-ke-speech
- Sintesis ucapan berkualitas tinggi menggunakan model F5-TTS
- Pelacakan kemajuan generasi real-time
- Statistik Waktu Generasi
- Pemantauan Penggunaan Memori GPU
Dukungan Audio Referensi
- Rekam sampel referensi baru dengan teks yang menyertainya
- Kelola sampel referensi yang disimpan
- Pilih sampel referensi untuk pembuatan bicara
- Putar kembali sampel referensi
- Dukungan untuk Mono, Format WAV 24kHz
UI modern
- Antarmuka SwiftUi asli
- Navigasi split-view
- Dukungan Mode Gelap
- Dukungan lintas platform (macOS, iOS, visiono)
- Fitur aksesibilitas
Struktur proyek
Proyek ini dibagi menjadi dua bagian utama:
-
Glosik : Aplikasi Utama -
GlosikUI : Paket komponen SwiftUi yang dapat digunakan kembali
Lisensi
Proyek ini dilisensikan di bawah lisensi MIT. Lihat file lisensi untuk detailnya.