Głosik
Głosik (وضوحا "GWOH-SEEK") هو تطبيق مثال لعرض نظام النص إلى الكلام F5-TTS باستخدام MLX SWIFT. يأتي الاسم من الكلمة البولندية "głos" (صوت) مع اللاحقة الضخمة "-ك".
فيما يلي المستودع الأصلي للتنفيذ: https://github.com/lucasnewman/f5-tts-swift
F5TTS_DEMO.MP4
شاهد العرض التوضيحي أعلاه لرؤية Głosik في العمل!
متطلبات
- Macos 14.0 أو لاحقًا
- iOS 16.0 أو لاحقًا
- Visionos 1.0 أو أحدث
- Xcode 15.0 أو لاحقًا
- سريع 5.9 أو أحدث
تثبيت
- استنساخ المستودع
- افتح
Glosik.xcodeproj في xcode - بناء وتشغيل المشروع
الاستخدام
- أدخل النص الذي تريد تحويله إلى خطاب
- (اختياري) سجل أو حدد عينة صوتية مرجعية:
- انتقل إلى علامة التبويب "المرجعية"
- سجل عينة صوتية جديدة وقدم نصًا مرجعيًا
- احفظه كعينة مرجعية
- حدده من منتقي المرجع في علامة التبويب "إنشاء"
- انقر فوق "إنشاء الكلام" لإنشاء الصوت
- استخدم عناصر التحكم في التشغيل للاستماع إلى الكلام الذي تم إنشاؤه
- احفظ الصوت الذي تم إنشاؤه كملف WAV
سمات
توليد نص إلى كلام
- تخليق الكلام عالي الجودة باستخدام نموذج F5-TTS
- تتبع التقدم في الوقت الحقيقي
- إحصاءات توقيت الجيل
- مراقبة استخدام ذاكرة GPU
دعم الصوت المرجع
- سجل عينات مرجعية جديدة مع النص المصاحب
- إدارة العينات المرجعية المحفوظة
- حدد عينات مرجعية لتوليد الكلام
- تشغيل عينات مرجعية مرة أخرى
- دعم Mono ، تنسيق WAV 24 كيلو هرتز
واجهة المستخدم الحديثة
- واجهة سويفتوي الأصلية
- انقسام الملاحة
- دعم الوضع المظلم
- دعم المنصات (MacOS ، iOS ، VisionOS)
- ميزات الوصول
هيكل المشروع
يتم تقسيم المشروع إلى جزأين رئيسيين:
-
Glosik : التطبيق الرئيسي -
GlosikUI : حزمة مكونات Swiftui القابلة لإعادة الاستخدام
رخصة
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. انظر ملف الترخيص للحصول على التفاصيل.