PaddleSpeechダウンロード - PaddleSpeechソースコードのダウンロード

PaddleSpeech

AI ソースコード

PaddleSpeech r1.4.2

ダウンロード

（単純化された中国語|英語）

クイックスタート|ドキュメント|モデルリスト| Aistudioコース| NAACL2022 Best Demo Award Paper | gitee

Paddlespeechは、最新モデルと影響力のあるモデルを備えた、スピーチとオーディオのさまざまな重要なタスクのためのパドルパドルプラットフォーム上のオープンソースツールキットです。

PaddlespeechはNAACL2022 Best Demo Awardを受賞しました。Arxivに関する論文をご覧ください。

音声認識

入力オーディオ	認識結果
	私は建物の古代の側のドアをノックしました。
	ランニングで最も重要なことは、私に健康をもたらすことだと思います。

音声翻訳（英語から中国語）

入力オーディオ	翻訳の結果
	私はこの建物の古代のドアをノックしました。

テキストからスピーチ

入力テキスト	合成オーディオ
人生はチョコレートの箱のようなものでした。
おはようございます、今日は2020/10/29で、最低気温は-3°Cです。
ji ji ji、鶏、鶏の集まりはとげのある鶏です。ソーンチキンはおなかがすいています、ジジとジジは鶏肉を助けます。鶏が混ざっているとき、彼らはジ・ジが加わります。ジイは鶏肉を叩くのは非常に速く、鶏肉は緊急であり、不正は緊急であり、ジジは心配していて、それから彼は鶏にぶつかります。ジイは鶏肉をすぐに叩きます。鶏肉が死んだとき、ジジは興奮し、彼は「ジーが鶏をノックする」と書いています。
みなさん、こんにちは、私はオウムの仮想教師です。詩を読みましょう。私と春の風が通り過ぎています。秋の水を取り、銀河を取ります。
イケアはあなたが話すためには必要ではありませんが、あなたが言うことはプレゼンテーションと告白になります。
各国には独自の国歌があります

より合成されたオーディオについては、Paddlespeech Text-to-Speechサンプルを参照してください。

句読点の修復

入力テキスト	出力テキスト
今日の天気は本当にいいです。午後は時間がありますか？一緒に夕食をとるように頼みたいです	今日の天気は本当にいいです！午後は無料ですか？一緒に食事をお願いしたいです。

特徴

使いやすく、効率的で、柔軟でスケーラブルな実装を介して、私たちのビジョンは、トレーニング、推論とテストモジュール、展開プロセスなど、産業用途と学術研究の両方を強化することです。より具体的には、このツールキットは次のように機能します。

？使いやすさ：インストールの低い障壁、CLI、サーバー、およびストリーミングサーバーを使用できます。
？最先端に合わせて、高速および超軽量モデルと最先端の技術を提供します。
？ Streaming ASRおよびTTSシステム：生産対応のストリーミングASRおよびストリーミングTTSシステムを提供します。
？ルールベースの中国のフロントエンド：フロントエンドには、テキストの正規化とグラフェムから病気のもの（ポリフォンとトーンサンディを含むG2P）が含まれています。さらに、中国の文脈を適応させるために、自己定義の言語ルールを使用します。
？産業と学界の両方を活性化する多様な機能：
- ？§重要なオーディオタスクの実装：このツールキットには、自動音声認識、テキストツーシーチの合成、スピーカーの検証、キーワードスポッティング、オーディオ分類、音声翻訳などのオーディオ関数が含まれています。
- ？メインストリームモデルとデータセットの統合：ツールキットは、音声タスクのパイプライン全体に参加するモジュールを実装し、Librispeech、LJSpeech、Aishell、CSMSCなどの主流データセットを使用します。詳細については、モデルリストも参照してください。
- ？ CASCADEDモデルアプリケーション：典型的な従来のオーディオタスクの拡張として、疎外されたタスクのワークフローと、自然言語処理（NLP）やコンピュータービジョン（CV）などの他のフィールドと組み合わせます。

コミュニティ

以下のQRコードをWECHATでスキャンすると、公式の技術交換グループにアクセスして、ボーナス（紙、コード、ビデオなどの20GB以上の学習資料）とレッスンのライブリンクを取得できます。ご参加をお待ちしております。

インストール

Python> = 3.8およびPaddlePaddle <= 2.5.1を使用してLinuxにPaddlesepeechをインストールすることをユーザーに強くお勧めします。パドルの新しいバージョンでは、Paddlesepheechでの適応のサポートがないため、現在はバージョン2.5.1以前のみをサポートできます。

依存関係の紹介

GCC> = 4.8.5
パドルパドル<= 2.5.1
Python> = 3.8
OSサポート：Linux（推奨）、Windows、Mac OSX

paddlespeechはパドルパドルに依存します。インストールについては、PaddlePaddleの公式Webサイトを参照して、自分のマシンに従って選択してください。これがCPUバージョンの例です。

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

パドルパドルのバージョンを指定したり、開発バージョンをインストールしたりすることもできます。

 # install 2.4.1 version. Note, 2.4.1 is just an example, please follow the minimum dependency of paddlepaddle for your selection
pip install paddlepaddle==2.4.1 -i https://mirror.baidu.com/pypi/simple
# install develop version
pip install paddlepaddle==0.0.0 -f https://www.paddlepaddle.org.cn/whl/linux/cpu-mkl/develop.html

Paddlespeechには2つのクイックインストール方法があります。1つはPIPのインストール、もう1つはソースコードコンパイルです（推奨）。

ピップインストール

pip install pytest-runner
pip install paddlespeech

ソースコードコンパイル

git clone https://github.com/PaddlePaddle/PaddleSpeech.git
cd PaddleSpeech
pip install pytest-runner
pip install .

Conda Environment、Librosa依存、GCCの問題、Kaldiのインストールなどのインストールの問題については、このインストール文書を参照できます。インストール中に問題が発生した場合、＃2150にメッセージを残して関連する問題を見つけることができます

クイックスタート

開発者は、PaddlespeechコマンドラインまたはPythonでモデルを試してみることができます。変更--input独自のオーディオ/テキストをテストし、16K WAV形式のオーディオをサポートするための入力。

また、AI Studioですぐに体験できますか？ Paddlespeech APIデモ

オーディオサンプルのダウンロードをテストします

wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/zh.wav
wget -c https://paddlespeech.bj.bcebos.com/PaddleAudio/en.wav

自動音声認識

clickクリックして展開openオープンソースの音声認識

コマンドラインエクスペリエンス

paddlespeech asr --lang zh --input zh.wav

Python APIエクスペリエンス

 > >> from paddlespeech . cli . asr . infer import ASRExecutor
> >> asr = ASRExecutor ()
> >> result = asr ( audio_file = "zh.wav" )
> >> print ( result )
我认为跑步最重要的就是给我带来了身体健康

テキストからスピーチ

オープンソースの音声合成

出力24KサンプルレートWAVフォーマットオーディオ

コマンドラインエクスペリエンス

paddlespeech tts --input "你好，欢迎使用百度飞桨深度学习框架！ " --output output.wav

Python APIエクスペリエンス

 > >> from paddlespeech . cli . tts . infer import TTSExecutor
> >> tts = TTSExecutor ()
> >> tts ( text = "今天天气十分不错。" , output = "output.wav" )

HuggingfaceスペースTTSデモで体験できます

オーディオ分類

オープンドメインサウンド分類ツール

527カテゴリのオーディオセットデータセットに基づくサウンド分類モデル

コマンドラインエクスペリエンス

paddlespeech cls --input zh.wav

Python APIエクスペリエンス

 > >> from paddlespeech . cli . cls . infer import CLSExecutor
> >> cls = CLSExecutor ()
> >> result = cls ( audio_file = "zh.wav" )
> >> print ( result )
Speech 0.9027186632156372

VoicePrint抽出

産業用VoicePrint抽出ツール

コマンドラインエクスペリエンス

paddlespeech vector --task spk --input zh.wav

Python APIエクスペリエンス

 > >> from paddlespeech . cli . vector import VectorExecutor
> >> vec = VectorExecutor ()
> >> result = vec ( audio_file = "zh.wav" )
> >> print ( result ) # 187维向量
[ - 0.19083306   9.474295   - 14.122263    - 2.0916545    0.04848729
   4.9295826    1.4780062    0.3733844   10.695862     3.2697146
  - 4.48199     - 0.6617882   - 9.170393   - 11.1568775   - 1.2358263 ...]

句読点の修復

テキスト句読点の迅速な回復は、ASRモデルで動作します

コマンドラインエクスペリエンス

paddlespeech text --task punc --input 今天的天气真不错啊你下午有空吗我想约你一起去吃饭

Python APIエクスペリエンス

 > >> from paddlespeech . cli . text . infer import TextExecutor
> >> text_punc = TextExecutor ()
> >> result = text_punc ( text = "今天的天气真不错啊你下午有空吗我想约你一起去吃饭" )
今天的天气真不错啊！你下午有空吗？我想约你一起去吃饭。

音声翻訳

エンドツーエンドの英語から中国語の音声翻訳ツール

事前にコンパイルされたKaldi関連ツールを使用し、Ubuntuシステムでの経験のみをサポートする

コマンドラインエクスペリエンス

paddlespeech st --input en.wav

Python APIエクスペリエンス

 > >> from paddlespeech . cli . st . infer import STExecutor
> >> st = STExecutor ()
> >> result = st ( audio_file = "en.wav" )
[ '我 在 这栋 建筑 的 古老 门上 敲门 。' ]

クイックスタートサーバー

開発者は、Paddlespeech Serverコマンドラインを使用したSpeech Serverを試してみることができます。

AIスタジオですぐに試すことができます（推奨）：SpeechServer

サーバーを開始します

paddlespeech_server start --config_file ./demos/speech_server/conf/application.yaml

音声認識サービスにアクセスします

paddlespeech_client asr --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

スピーチサービスにテキストにアクセスします

paddlespeech_client tts --server_ip 127.0.0.1 --port 8090 --input "您好，欢迎使用百度飞桨语音合成服务。 " --output output.wav

オーディオ分類サービスにアクセスします

paddlespeech_client cls --server_ip 127.0.0.1 --port 8090 --input input.wav

サーバーコマンドラインの詳細については、次のことを参照してください：Speech Serverデモ

クイックスタートストリーミングサーバー

開発者は、ASRのストリーミングとストリーミングTTSサーバーを試してみることができます。

音声認識サーバーのストリーミングを開始します

 paddlespeech_server start --config_file ./demos/streaming_asr_server/conf/application.yaml

ストリーミングの音声認識サービスにアクセスします

 paddlespeech_client asr_online --server_ip 127.0.0.1 --port 8090 --input input_16k.wav

テキストのストリーミングをスピーチサーバーに開始します

 paddlespeech_server start --config_file ./demos/streaming_tts_server/conf/tts_online_application.yaml

ストリーミングテキストにスピーチサービスにアクセスします

 paddlespeech_client tts_online --server_ip 127.0.0.1 --port 8092 --protocol http --input "您好，欢迎使用百度飞桨语音合成服务。" --output output.wav

詳細については、ASRのストリーミングとストリーミングTTSをご覧ください

モデルリスト

Paddlespeechは、最も人気のある一連のモデルをサポートしています。それらはリリースされたモデルに要約され、利用可能な前提型モデルで添付されています。

音声からテキストには、音響モデル、言語モデル、音声翻訳が含まれており、次の詳細があります。

音声からテキストへのモジュールタイプ	データセット	モデルタイプ	例
スピーチの再会	アイシェル	DeepSpeech2 RNN + CONVベースのモデル	deepppeech2-aishell
	アイシェル	トランスベースの注意モデル	u2.transformer.conformer-aishell
	Librispeech	トランスベースの注意モデル	deepppeech2-librispirech/transformer.conformer.u2-librispirech/transformer.conformer.u2-kaldi-librispirech
	タイミット	統合ストリーミングと非ストリーミング2パス	u2-timit
アライメント	thchs30	MFA	MFA-THCHS30
言語モデル	ngram言語モデル		ケンルム
音声翻訳（英語から中国語）	Ted en-zh	トランス + ASR MTL	トランステッド
音声翻訳（英語から中国語）	Ted en-zh	脂肪 +トランス + ASR MTL	脂肪をつけた

Paddlesepeechのテキストツースピーチには、主にテキストフロントエンド、アコースティックモデル、ボコーダーの3つのモジュールが含まれています。音響モデルとボコーダーモデルは次のようにリストされています。

テキスト間モジュールタイプ	モデルタイプ	データセット	例
テキストフロントエンド			TN/G2P
音響モデル	Tacotron2	ljspeech/csmsc	tacotron2-ljspeech/tacotron2-csmsc
	トランスTTS	ljspeech	変圧器-ljspeech
	speedyspeech	CSMSC	speedyspeech-csmsc
	fastspeech2	ljspeech / vctk / csmsc / aishell-3 / zh_en / winune	fastspeech2-ljspeech/fastspeech2-vctk/fastspeech2-csmsc/fastspeech2-aishell3/fastspeech2-zh_en/fastspeech2-finenetune
	アーニー・サット	vctk / aishell-3 / zh_en	ernie-sat-vctk / ernie-sat-aishell3 / ernie-sat-zh_en
	diffsinger	opencpop	diffsinger-opencpop
ボコーダ	ウェーブフロー	ljspeech	Waveflow-ljspeech
	パラレルウェーブガン	ljspeech / vctk / csmsc / aishell-3 / opencpop	pwgan-ljspeech / pwgan-vctk / pwgan-csmsc / pwgan-aishell3 / pwgan-opencpop
	マルチバンドメルガン	CSMSC	マルチバンドMelgan-CSMSC
	スタイルメルガン	CSMSC	スタイルMelgan-CSMSC
	ヒフィガン	ljspeech / vctk / csmsc / aishell-3 / opencpop	Hifigan-ljspeech / Hifigan-VCTK / Hifigan-CSMSC / Hifigan-Aishell3 / Hifigan-Opencpop
	ワバーン	CSMSC	wavernn-csmsc
音声クローニング	Ge2e	Librispeechなど	Ge2e
	sv2tts（ge2e + tacotron2）	アイシェル-3	VC0
	sv2tts（ge2e + fastspeech2）	アイシェル-3	VC1
	sv2tts（ecapa-tdnn + fastspeech2）	アイシェル-3	VC2
	Ge2e + vits	アイシェル-3	vits-vc
エンドツーエンド	vits	CSMSC / Aishell-3	Vits-CSMSC/VITS-AISHELL3

オーディオ分類

タスク	データセット	モデルタイプ	例
オーディオ分類	ESC-50	パン	pann-esc50

キーワードスポッティング

タスク	データセット	モデルタイプ	例
キーワードスポッティング	ちょっとスニップ	MDTC	mdtc-hey-snips

スピーカーの検証

タスク	データセット	モデルタイプ	例
スピーカーの検証	voxceleb1/2	Ecapa-tdnn	ECAPA-TDNN-VOXCELEB12

スピーカーダイアリゼーション

タスク	データセット	モデルタイプ	例
スピーカーダイアリゼーション	アミ	ecapa-tdnn + ahc / sc	ecapa-tdnn-ami

句読点の修復

タスク	データセット	モデルタイプ	例
句読点の修復	IWLST2012_ZH	アーニーリニア	IWSLT2012-PUNCH0

ドキュメント

通常、Speech Sota、Audio Sota、Music Sotaは、関連分野のホットアカデミックトピックの概要を提供します。 Paddlesepeechのタスクに焦点を当てるには、次のガイドラインがコアのアイデアをつかむのに役立つことがわかります。

インストール
クイックスタート
いくつかのデモ
チュートリアル
- 自動音声認識
  - 導入
  - データの準備
  - ngram lm
- テキストからスピーチ
  - 導入
  - 高度な使用
  - 中国のルールベースのテキストフロントエンド
  - オーディオサンプルをテストします
- スピーカーの検証
  - オーディオ検索
  - スピーカーの検証
- オーディオ分類
- 音声翻訳
- 音声サーバー
リリースされたモデル
- 音声からテキスト
- テキストからスピーチ
- オーディオ分類
- スピーカーの検証
- スピーカーダイアリゼーション
- 句読点の修復
コミュニティ
貢献してください
ライセンス

テキストからスピーチへのモジュールは、もともとParakeetと呼ばれ、現在このリポジトリと合併しています。このタスクに関する学術研究に興味がある場合は、TTSの調査の概要をご覧ください。また、このドキュメントは、パイプラインコンポーネントの適切なガイドラインです。

例

Paddlebobo：Paddlesepeech TTSを使用して、仮想の人間の音声を生成します。

paddlespeechデモビデオ
vtubertAlk：Paddlespeech TTSとASRを使用して、ビデオから音声をクローン化します。

引用

研究のためにPaddlesepeechを引用するには、次の形式を使用してください。

 @inproceedings{zhang2022paddlespeech,
    title = {PaddleSpeech: An Easy-to-Use All-in-One Speech Toolkit},
    author = {Hui Zhang, Tian Yuan, Junkun Chen, Xintong Li, Renjie Zheng, Yuxin Huang, Xiaojie Chen, Enlei Gong, Zeyu Chen, Xiaoguang Hu, dianhai yu, Yanjun Ma, Liang Huang},
    booktitle = {Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Demonstrations},
    year = {2022},
    publisher = {Association for Computational Linguistics},
}

@InProceedings{pmlr-v162-bai22d,
  title = {{A}$^3${T}: Alignment-Aware Acoustic and Text Pretraining for Speech Synthesis and Editing},
  author = {Bai, He and Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Li, Xintong and Huang, Liang},
  booktitle = {Proceedings of the 39th International Conference on Machine Learning},
  pages = {1399--1411},
  year = {2022},
  volume = {162},
  series = {Proceedings of Machine Learning Research},
  month = {17--23 Jul},
  publisher = {PMLR},
  pdf = {https://proceedings.mlr.press/v162/bai22d/bai22d.pdf},
  url = {https://proceedings.mlr.press/v162/bai22d.html},
}

@inproceedings{zheng2021fused,
  title={Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation},
  author={Zheng, Renjie and Chen, Junkun and Ma, Mingbo and Huang, Liang},
  booktitle={International Conference on Machine Learning},
  pages={12736--12746},
  year={2021},
  organization={PMLR}
}

PaddleSpeechに貢献します

ディスカッションやバグレポートで質問を提出することを暖かく歓迎します！また、あなたがこのプロジェクトに貢献することをいとわないなら、私たちは非常に感謝しています！

貢献者

了承

vits-aishell3とvits-vcの例を追加してくれたHighcwuに感謝します。
David-95は、多機能バグを修正し、複数のプログラムとデータに貢献し、TTS中国のテキストフロントエンドのSSMLを追加してくれたことに感謝します。
G2PWに基づいてTTS Chise Frontendを改善してくれたBarrykClに感謝します。
Yeyupiaoling/PPASR/PADDLEPADDLE-DEEPSPEECH/VOICEPRINTRECOGNITION-PADDLERPADDLE/AudioClassification-PaddlePaddleの長年の注意、建設的なアドバイス、そして大きな助けに感謝します。
短期および長いオーディオファイルでASRを実装してくれたMyMagicPowerに感謝します。
Paddlespeech TTS機能を備えた仮想アップロード（VUP）/仮想YouTuber（VTuber）を開発してくれたJiehangxie/Paddleboboに感謝します。
句読点修復モデルを貢献してくれた745165806/PADDLESPEECHTASKに感謝します。
補足中国の文書についてKSLZに感謝します。
fastspeech2 aishell3配置前モデルを貢献してくれたAWMMMMに感謝します。
Paddlespeech TTSモデルに基づいてGUIを使用して吹き替えツールを開発してくれたPHECDA-XU/PADDLEDUBBINGに感謝します。
Paddlespeech TTSに基づいたGUIツールを開発してくれたJerryuho/vtubertalkに感謝します。PaddlespeechASRに基づいてビデオからデータセットを作成するためのコード。
Rasaチャットボットを開発してくれたVpegasus/Xuesebotに感謝します。これは、Paddlespeechのおかげで話したり聞いたりすることができます。
PaddleSpeech ASRのC ++推論の実装についてChenkui164/Fastasrに感謝します。
Paddlesepeech ASRストリーミングサービスのリアルタイム音声タイピングツールの実装について、Heyudage/VoiceTypingに感謝します。
viusal Studioを使用してWindowsのPadlespeechインストール用のPython3.9の事前に構築されたホイールのescaticzheng/ps3.9ホイールインストールに感謝します。また、Paddlespeechは、多くのオープンソースリポジトリに依存しています。詳細については、参照を参照してください。
FastapiとPaddlesepeechに基づいてオーディオをテキストに変換してくれたChinobing/Fastapi-Paddlespeech-Audio-to-Textに感謝します。
Paddlespeech TTSに基づいたQQボットのMisteo/Pallas-Botに感謝します。