Głosik
Głosik (prononcé "Gwoh-Seek") est un exemple d'application pour présenter le système de texte-to-vocation F5-TTS en utilisant MLX Swift. Le nom vient du mot polonais "głos" (voix) avec le suffixe diminutif "-ik".
Voici le référentiel d'origine de l'implémentation: https://github.com/lucasnewman/f5-tts-swift
F5tts_demo.mp4
Regardez la démo ci-dessus pour voir Głosik en action!
Exigences
- macOS 14.0 ou plus tard
- iOS 16.0 ou plus tard
- VisionOS 1.0 ou plus tard
- Xcode 15.0 ou version ultérieure
- Swift 5.9 ou version ultérieure
Installation
- Cloner le référentiel
- Ouvrir
Glosik.xcodeproj dans Xcode - Construire et exécuter le projet
Usage
- Entrez le texte que vous souhaitez convertir en discours
- (Facultatif) Enregistrer ou sélectionner un échantillon audio de référence:
- Accédez à l'onglet "référence"
- Enregistrez un nouvel échantillon audio et fournissez un texte de référence
- Enregistrez-le comme un échantillon de référence
- Sélectionnez-le dans le sélecteur de référence dans l'onglet "Générer"
- Cliquez sur "Générer un discours" pour créer l'audio
- Utilisez les commandes de lecture pour écouter le discours généré
- Enregistrer l'audio généré en tant que fichier WAV
Caractéristiques
Génération de texte vocal
- Synthèse de la parole de haute qualité utilisant le modèle F5-TTS
- Suivi des progrès de la génération en temps réel
- Statistiques de synchronisation de génération
- Surveillance de l'utilisation de la mémoire GPU
Prise en charge de l'audio de référence
- Enregistrez de nouveaux échantillons de référence avec du texte d'accompagnement
- Gérer les échantillons de référence enregistrés
- Sélectionnez des échantillons de référence pour la génération de la parole
- Recherchez des échantillons de référence
- Prise en charge du format WAV mono, 24KHz
UI moderne
- Interface Swiftui native
- Navigation à vue divisée
- Support en mode noir
- Support multiplateforme (macOS, iOS, VisionOS)
- Caractéristiques d'accessibilité
Structure du projet
Le projet est divisé en deux parties principales:
-
Glosik : application principale -
GlosikUI : ensemble de composants Swiftui réutilisables
Licence
Ce projet est autorisé sous la licence du MIT. Voir le fichier de licence pour plus de détails.