głosik
Głosik(「Gwoh-Seek」と発音)は、MLX Swiftを使用してF5-TTSテキストからスピーチシステムを紹介するための例です。名前は、小型の接尾辞「-ik」を備えたポーランド語「głos」(声)に由来しています。
これは、実装の元のリポジトリです:https://github.com/lucasnewman/f5-tts-swift
f5tts_demo.mp4
上記のデモをご覧になって、Głosikが動作しているのをご覧ください!
要件
- MacOS 14.0以降
- iOS 16.0以降
- Visionos 1.0以降
- Xcode 15.0以降
- Swift 5.9以降
インストール
- リポジトリをクローンします
- Xcodeで
Glosik.xcodeprojを開きます - プロジェクトを構築して実行します
使用法
- スピーチに変換するテキストを入力します
- (オプション)参照オーディオサンプルを録画または選択します。
- [参照]タブに移動します
- 新しいオーディオサンプルを記録し、参照テキストを提供します
- 参照サンプルとして保存します
- [生成]タブのリファレンスピッカーから選択します
- [スピーチを生成]をクリックして、オーディオを作成します
- 再生コントロールを使用して、生成されたスピーチを聞く
- 生成されたオーディオをWAVファイルとして保存します
特徴
テキストからスピーチの生成
- F5-TTSモデルを使用した高品質の音声合成
- リアルタイム生成の進行状況追跡
- 生成タイミング統計
- GPUメモリ使用監視
参照オーディオサポート
- 添付のテキストで新しいリファレンスサンプルを記録します
- 保存された参照サンプルを管理します
- 音声生成の参照サンプルを選択します
- 参照サンプルを再生します
- Mono、24kHz WAV形式のサポート
現代のui
- ネイティブSwiftuiインターフェイス
- スプリットビューナビゲーション
- ダークモードのサポート
- クロスプラットフォームサポート(MacOS、iOS、VisionOS)
- アクセシビリティ機能
プロジェクト構造
プロジェクトは2つの主要な部分に分割されています。
-
Glosik :メインアプリケーション GlosikUI :再利用可能なSwiftuiコンポーネントパッケージ
ライセンス
このプロジェクトは、MITライセンスの下でライセンスされています。詳細については、ライセンスファイルを参照してください。