テキストツースピーチアラインメントプロジェクト
プロジェクトの概要
このプロジェクトは、TTSシステムの品質と効率を向上させることを目的とした、さまざまなテキスト対スピーチ(TTS)アライメント手法を調査および実装しています。私たちの仕事は複数のアプローチにまたがっており、それぞれがアラインメントチャレンジのさまざまな側面に対処しています。
プロジェクト構造
このリポジトリは、3つの主要なブランチに編成されており、それぞれがTTSアライメントへの明確なアプローチを表しています。
MoBoAligner
- ステータス:参照のみで完了します
- 説明:「MoboAligner:単調な境界検索を使用した非自動網性TTSのニューラルアライメントモデル」の非公式実装」
- 目的:学習とベースラインの比較
- 制限:最大期間の制約により、大規模なアプリケーションには適していません
RoMoAligner
- ステータス:参照のみのために開発が停止しました
- 説明:大まかなアライメントとMoboAlignerを組み合わせた実験的改善の試み
- 目的:TTSアライメントの自己監視学習技術を探索します
- 制限:パフォーマンスの改善は限られており、期待を満たしていませんでした
OTA ?現在の焦点
- ステータス:アクティブな計画と早期開発
- 説明:「それらをすべて支配するための1つのTTSアライメントの適応」(OTA)メソッドの暗黙の一時停止モデリング
- 目標:明示的な沈黙のトークンに頼らずに暗黙の一時停止を処理するためのソリューションを開発する
- 進捗状況:概念開発と計画段階
現在の焦点
私たちの主な焦点はOTAブランチであり、特に音声で暗黙の一時停止を処理する際に、Alignmentの改善のためにOTAメソッドを適応させる方法を模索しています。
このリポジトリの使用方法
- 特定の実装の詳細と進捗については、各ブランチをご覧ください。
- セットアップと使用手順については、個々のブランチREADMESを参照してください。
- 最新の開発については、
OTAブランチに焦点を当ててください。
貢献
支店のいずれかへの貢献を歓迎します。貢献に興味がある場合:
- 関連するブランチの問題を確認してください。
- リポジトリをフォークし、改善とともにプルリクエストを作成します。
- 大きな変更については、最初に問題を開いて、何を変えたいかを議論してください。
ロードマップ
謝辞
- オリジナルのMoboAlignerペーパー
- OTAペーパー
この研究を進める上で、TTSおよび音声処理コミュニティからのサポートと関心を高く評価しています。