Глосик
Głosik (произносится «Gwoh-Seek») является примером приложения для демонстрации системы F5-TTS текста в речь с использованием MLX Swift. Название происходит от польского слова «głos» (голос) с миниатюрным суффиксом "-ik".
Вот оригинальный репозиторий реализации: https://github.com/lucasnewman/f5-tts-swift
F5tts_demo.mp4
Посмотрите демонстрацию выше, чтобы увидеть Глосика в действии!
Требования
- macOS 14.0 или позже
- iOS 16,0 или позже
- Visionos 1,0 или позже
- Xcode 15.0 или позже
- Swift 5,9 или позже
Установка
- Клонировать репозиторий
- Open
Glosik.xcodeproj в Xcode - Создать и запустить проект
Использование
- Введите текст, который вы хотите преобразовать в речь
- (Необязательно) Запишите или выберите образец справочной аудио:
- Перейти на вкладку «Ссылка»
- Запишите новый образец аудио и предоставьте справочный текст
- Сохраните его в качестве справочного образца
- Выберите его на вкладке «Сгенерировать» на вкладке «генерировать»
- Нажмите «Создать речь», чтобы создать аудио
- Используйте элементы управления воспроизведением, чтобы прослушать сгенерированную речь
- Сохранить сгенерированное аудио в качестве файла WAV
Функции
Поколение текста в речь
- Высококачественный синтез речи с использованием модели F5-TTS
- Отслеживание прогресса в реальном времени
- Статистика времени поколения
- Мониторинг использования памяти графического процессора
Справочная поддержка аудио
- Запишите новые справочные образцы с сопровождающим текстом
- Управлять сохраненными справочными образцами
- Выберите справочные образцы для генерации речи
- Воспроизвести справочные образцы
- Поддержка моно, формат WAV 24 кГц
Современный пользовательский интерфейс
- Нативный интерфейс Swiftui
- Навигация с разделением
- Поддержка темного режима
- Кроссплатформенная поддержка (MacOS, iOS, Visionos)
- Функции доступности
Структура проекта
Проект разделен на две основные части:
-
Glosik : главное применение -
GlosikUI : многоразовый пакет компонентов Swiftui
Лицензия
Этот проект лицензирован по лицензии MIT. Смотрите файл лицензии для получения подробной информации.