(単純化された中国語|英語)

Paddlespeechは、最新モデルと影響力のあるモデルを備えた、スピーチとオーディオのさまざまな重要なタスクのためのパドルパドルプラットフォーム上のオープンソースツールキットです。
PaddlespeechはNAACL2022 Best Demo Awardを受賞しました。Arxivに関する論文をご覧ください。
| 入力オーディオ | 認識結果 |
|---|---|
![]() | 私は建物の古代の側のドアをノックしました。 |
![]() | ランニングで最も重要なことは、私に健康をもたらすことだと思います。 |
| 入力オーディオ | 翻訳の結果 |
|---|---|
![]() | 私はこの建物の古代のドアをノックしました。 |
| 入力テキスト | 合成オーディオ |
|---|---|
| 人生はチョコレートの箱のようなものでした。 | ![]() |
| おはようございます、今日は2020/10/29で、最低気温は-3°Cです。 | ![]() |
| ji ji ji、鶏、鶏の集まりはとげのある鶏です。ソーンチキンはおなかがすいています、ジジとジジは鶏肉を助けます。鶏が混ざっているとき、彼らはジ・ジが加わります。ジイは鶏肉を叩くのは非常に速く、鶏肉は緊急であり、不正は緊急であり、ジジは心配していて、それから彼は鶏にぶつかります。ジイは鶏肉をすぐに叩きます。鶏肉が死んだとき、ジジは興奮し、彼は「ジーが鶏をノックする」と書いています。 | ![]() |
| みなさん、こんにちは、私はオウムの仮想教師です。詩を読みましょう。私と春の風が通り過ぎています。秋の水を取り、銀河を取ります。 | ![]() |
| イケアはあなたが話すためには必要ではありませんが、あなたが言うことはプレゼンテーションと告白になります。 | ![]() |
| 各国には独自の国歌があります | ![]() |
より合成されたオーディオについては、Paddlespeech Text-to-Speechサンプルを参照してください。
| 入力テキスト | 出力テキスト |
|---|---|
| 今日の天気は本当にいいです。午後は時間がありますか?一緒に夕食をとるように頼みたいです | 今日の天気は本当にいいです!午後は無料ですか?一緒に食事をお願いしたいです。 |
使いやすく、効率的で、柔軟でスケーラブルな実装を介して、私たちのビジョンは、トレーニング、推論とテストモジュール、展開プロセスなど、産業用途と学術研究の両方を強化することです。より具体的には、このツールキットは次のように機能します。
PaddleSpeech Streaming Server Punctuation RestorationとToken Timestamp 、 Text-to-SpeechスピーチでStreaming ASRできます。PaddleSpeech Server 、 Audio Classification 、 Automatic Speech RecognitionとText-to-Speechスピーチ、 Speaker Verification 、 Punctuation Restorationに利用できます。PaddleSpeech CLI Speaker Verificationに利用できます。PaddleSpeech CLI 、 Audio Classification 、 Automatic Speech Recognition 、 Speech Translation (English to Chinese) 、 Text-to-Speechに利用できます。
Python> = 3.8およびPaddlePaddle <= 2.5.1を使用してLinuxにPaddlesepeechをインストールすることをユーザーに強くお勧めします。パドルの新しいバージョンでは、Paddlesepheechでの適応のサポートがないため、現在はバージョン2.5.1以前のみをサポートできます。
paddlespeechはパドルパドルに依存します。インストールについては、PaddlePaddleの公式Webサイトを参照して、自分のマシンに従って選択してください。これがCPUバージョンの例です。
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simpleパドルパドルのバージョンを指定したり、開発バージョンをインストールしたりすることもできます。
# install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.htmlPaddlespeechには2つのクイックインストール方法があります。1つはPIPのインストール、もう1つはソースコードコンパイルです(推奨)。
pip install pytest-runner
pip install paddlespeechgit clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .Conda Environment、Librosa依存、GCCの問題、Kaldiのインストールなどのインストールの問題については、このインストール文書を参照できます。インストール中に問題が発生した場合、#2150にメッセージを残して関連する問題を見つけることができます
開発者は、PaddlespeechコマンドラインまたはPythonでモデルを試してみることができます。変更--input独自のオーディオ/テキストをテストし、16K WAV形式のオーディオをサポートするための入力。
また、AI Studioですぐに体験できますか? Paddlespeech APIデモ
オーディオサンプルのダウンロードをテストします
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wavコマンドラインエクスペリエンス
paddlespeech asr --lang zh --input zh.wavPython APIエクスペリエンス
> >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康出力24KサンプルレートWAVフォーマットオーディオ
コマンドラインエクスペリエンス
paddlespeech tts --input "你好,欢迎使用百度飞桨深度学习框架! " --output output.wavPython APIエクスペリエンス
> >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )527カテゴリのオーディオセットデータセットに基づくサウンド分類モデル
コマンドラインエクスペリエンス
paddlespeech cls --input zh.wavPython APIエクスペリエンス
> >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372コマンドラインエクスペリエンス
paddlespeech vector --task spk --input zh.wavPython APIエクスペリエンス
> >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306 9.474295 - 14.122263 - 2.0916545 0.04848729
4.9295826 1.4780062 0.3733844 10.695862 3.2697146
- 4.48199 - 0.6617882 - 9.170393 - 11.1568775 - 1.2358263 ...]コマンドラインエクスペリエンス
paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭Python APIエクスペリエンス
> >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊!你下午有空吗?我想约你一起去吃饭。事前にコンパイルされたKaldi関連ツールを使用し、Ubuntuシステムでの経験のみをサポートする
コマンドラインエクスペリエンス
paddlespeech st --input en.wavPython APIエクスペリエンス
> >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]開発者は、Paddlespeech Serverコマンドラインを使用したSpeech Serverを試してみることができます。
AIスタジオですぐに試すことができます(推奨):SpeechServer
サーバーを開始します
paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml音声認識サービスにアクセスします
paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wavスピーチサービスにテキストにアクセスします
paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好,欢迎使用百度飞桨语音合成服务。 " --output output.wavオーディオ分類サービスにアクセスします
paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wavサーバーコマンドラインの詳細については、次のことを参照してください:Speech Serverデモ
開発者は、ASRのストリーミングとストリーミングTTSサーバーを試してみることができます。
音声認識サーバーのストリーミングを開始します
paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml
ストリーミングの音声認識サービスにアクセスします
paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav
テキストのストリーミングをスピーチサーバーに開始します
paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml
ストリーミングテキストにスピーチサービスにアクセスします
paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好,欢迎使用百度飞桨语音合成服务。" --output output.wav
詳細については、ASRのストリーミングとストリーミングTTSをご覧ください
Paddlespeechは、最も人気のある一連のモデルをサポートしています。それらはリリースされたモデルに要約され、利用可能な前提型モデルで添付されています。
音声からテキストには、音響モデル、言語モデル、音声翻訳が含まれており、次の詳細があります。
| 音声からテキストへのモジュールタイプ | データセット | モデルタイプ | 例 |
|---|---|---|---|
| スピーチの再会 | アイシェル | DeepSpeech2 RNN + CONVベースのモデル | deepppeech2-aishell |
| トランスベースの注意モデル | u2.transformer.conformer-aishell | ||
| Librispeech | トランスベースの注意モデル | deepppeech2-librispirech/transformer.conformer.u2-librispirech/transformer.conformer.u2-kaldi-librispirech | |
| タイミット | 統合ストリーミングと非ストリーミング2パス | u2-timit | |
| アライメント | thchs30 | MFA | MFA-THCHS30 |
| 言語モデル | ngram言語モデル | ケンルム | |
| 音声翻訳(英語から中国語) | Ted en-zh | トランス + ASR MTL | トランステッド |
| 脂肪 +トランス + ASR MTL | 脂肪をつけた | ||
Paddlesepeechのテキストツースピーチには、主にテキストフロントエンド、アコースティックモデル、ボコーダーの3つのモジュールが含まれています。音響モデルとボコーダーモデルは次のようにリストされています。
| テキスト間モジュールタイプ | モデルタイプ | データセット | 例 |
|---|---|---|---|
| テキストフロントエンド | TN/G2P | ||
| 音響モデル | Tacotron2 | ljspeech/csmsc | tacotron2-ljspeech/tacotron2-csmsc |
| トランスTTS | ljspeech | 変圧器-ljspeech | |
| speedyspeech | CSMSC | speedyspeech-csmsc | |
| fastspeech2 | ljspeech / vctk / csmsc / aishell-3 / zh_en / winune | fastspeech2-ljspeech/fastspeech2-vctk/fastspeech2-csmsc/fastspeech2-aishell3/fastspeech2-zh_en/fastspeech2-finenetune | |
| アーニー・サット | vctk / aishell-3 / zh_en | ernie-sat-vctk / ernie-sat-aishell3 / ernie-sat-zh_en | |
| diffsinger | opencpop | diffsinger-opencpop | |
| ボコーダ | ウェーブフロー | ljspeech | Waveflow-ljspeech |
| パラレルウェーブガン | ljspeech / vctk / csmsc / aishell-3 / opencpop | pwgan-ljspeech / pwgan-vctk / pwgan-csmsc / pwgan-aishell3 / pwgan-opencpop | |
| マルチバンドメルガン | CSMSC | マルチバンドMelgan-CSMSC | |
| スタイルメルガン | CSMSC | スタイルMelgan-CSMSC | |
| ヒフィガン | ljspeech / vctk / csmsc / aishell-3 / opencpop | Hifigan-ljspeech / Hifigan-VCTK / Hifigan-CSMSC / Hifigan-Aishell3 / Hifigan-Opencpop | |
| ワバーン | CSMSC | wavernn-csmsc | |
| 音声クローニング | Ge2e | Librispeechなど | Ge2e |
| sv2tts(ge2e + tacotron2) | アイシェル-3 | VC0 | |
| sv2tts(ge2e + fastspeech2) | アイシェル-3 | VC1 | |
| sv2tts(ecapa-tdnn + fastspeech2) | アイシェル-3 | VC2 | |
| Ge2e + vits | アイシェル-3 | vits-vc | |
| エンドツーエンド | vits | CSMSC / Aishell-3 | Vits-CSMSC/VITS-AISHELL3 |
オーディオ分類
| タスク | データセット | モデルタイプ | 例 |
|---|---|---|---|
| オーディオ分類 | ESC-50 | パン | pann-esc50 |
キーワードスポッティング
| タスク | データセット | モデルタイプ | 例 |
|---|---|---|---|
| キーワードスポッティング | ちょっとスニップ | MDTC | mdtc-hey-snips |
スピーカーの検証
| タスク | データセット | モデルタイプ | 例 |
|---|---|---|---|
| スピーカーの検証 | voxceleb1/2 | Ecapa-tdnn | ECAPA-TDNN-VOXCELEB12 |
スピーカーダイアリゼーション
| タスク | データセット | モデルタイプ | 例 |
|---|---|---|---|
| スピーカーダイアリゼーション | アミ | ecapa-tdnn + ahc / sc | ecapa-tdnn-ami |
句読点の修復
| タスク | データセット | モデルタイプ | 例 |
|---|---|---|---|
| 句読点の修復 | IWLST2012_ZH | アーニーリニア | IWSLT2012-PUNCH0 |
通常、Speech Sota、Audio Sota、Music Sotaは、関連分野のホットアカデミックトピックの概要を提供します。 Paddlesepeechのタスクに焦点を当てるには、次のガイドラインがコアのアイデアをつかむのに役立つことがわかります。
テキストからスピーチへのモジュールは、もともとParakeetと呼ばれ、現在このリポジトリと合併しています。このタスクに関する学術研究に興味がある場合は、TTSの調査の概要をご覧ください。また、このドキュメントは、パイプラインコンポーネントの適切なガイドラインです。
paddlespeechデモビデオ
vtubertAlk:Paddlespeech TTSとASRを使用して、ビデオから音声をクローン化します。
研究のためにPaddlesepeechを引用するには、次の形式を使用してください。
@inproceedings{zhang2022paddlespeech,
title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
year = {2022},
publisher = {Association for Computational Linguistics},
}
@InProceedings{pmlr-v162-bai22d,
title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
booktitle = {Proceedings of the 39th International Conference on Machine Learning},
pages = {1399--1411},
year = {2022},
volume = {162},
series = {Proceedings of Machine Learning Research},
month = {17--23 Jul},
publisher = {PMLR},
pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
url = {https://proceedings.mlr.press/v162/bai22d.html},
}
@inproceedings{zheng2021fused,
title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
booktitle={International Conference on Machine Learning},
pages={12736--12746},
year={2021},
organization={PMLR}
}
ディスカッションやバグレポートで質問を提出することを暖かく歓迎します!また、あなたがこのプロジェクトに貢献することをいとわないなら、私たちは非常に感謝しています!
Paddlespeechは、Apache-2.0ライセンスの下で提供されます。