|チュートリアル|ウェブサイト|ドキュメント| ?寄稿| ? Huggingface |
コミュニティプロジェクトを手伝ってください。 Githubのスター!
エキサイティングなニュース(2024年1月): Speechbrain 1.0で何が新しいかをここで発見してください!
SpeechBrainは、会話型AI開発、つまりスピーチアシスタント、チャットボット、大規模な言語モデルの背後にあるテクノロジーを加速するオープンソースのPytorchツールキットです。
音声とテキスト処理のための高度な技術を迅速かつ簡単に作成するために作成されています。
深い学習の台頭により、音声処理やNLPなどの一時的なドメインが非常に近いようになりました。適切に設計されたニューラルネットワークと大規模なデータセットが必要です。
今度は、人間の脳を模倣して、複雑な会話型AIシステムの多様な技術を共同でサポートする全体的なツールキットの時が来たと思います。
これは、音声認識、スピーカー認識、音声の強化、音声分離、言語モデリング、対話などに及びます。
非言語的個人を含む自然な人間の会話の長期的な目標と一致して、最近、EEGモダリティに対するサポートを追加しました。
20を超える競争力のあるトレーニングレシピを40を超えるデータセットで共有し、20の音声処理タスクとテキスト処理タスクをサポートしています(以下を参照)。
ゼロからのトレーニングと、whisper、wav2vec2、wavlm、hubert、gpt2、llama2などの微調整された冒険モデルの両方をサポートしています。 Huggingfaceのモデルは、簡単に接続して微調整できます。
どんなタスクでも、これらのコマンドを使用してモデルをトレーニングします。
python train . py hparams / train . yamlハイパーパラメーターはYAMLファイルにカプセル化され、トレーニングプロセスはPythonスクリプトを介して調整されます。
さまざまなタスクで一貫したコード構造を維持しました。
複製可能性を向上させるために、トレーニングログとチェックポイントがDropboxでホストされています。
from speechbrain . inference import EncoderDecoderASR
asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )研究の加速:学術および産業研究の高速化。新しいモデルを簡単に開発および統合し、パフォーマンスをベースラインと比較できます。
⚡唱:迅速なプロトタイピング:時間に敏感なプロジェクトでの迅速なプロトタイピングに最適です。
?教育ツール:SpeechBrainのシンプルさは、貴重な教育リソースになります。これは、MILA、コンコルディア大学、アヴィニョン大学、学生トレーニングのために他の多くの機関で使用されています。
SpeechBrainを始めるには、これらの簡単な手順に従ってください。
Pypiを使用してSpeechBrainをインストールします。
pip install speechbrainPythonコードにSpeechbrainにアクセス:
import speechbrain as sbこのインストールは、実験を実施し、ニーズに応じてツールキットをカスタマイズしたいユーザーに推奨されます。
githubリポジトリをクローンし、要件をインストールします。
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .PythonコードにSpeechbrainにアクセス:
import speechbrain as sb --editableフラグのおかげで、 speechbrainパッケージに加えられた変更は自動的に反映されます。
次のコマンドを実行して、インストールが正しいことを確認してください。
pytest tests
pytest --doctest-modules speechbrainSpeechBrainでは、次の手順を使用して、あらゆるタスクのモデルをトレーニングできます。
cd recipes / < dataset > / < task > /
python experiment . py params . yaml結果は、YAMLファイルで指定されたoutput_folderに保存されます。
ウェブサイト:公式ウェブサイトで一般的な情報を調べます。
チュートリアル:基本的な機能をカバーする基本的なチュートリアルから始めます。 SpeechBrainドキュメントのチュートリアルノートブックカテゴリで、高度なチュートリアルとトピックを見つけてください。
ドキュメント: SpeechBrain API、貢献ガイドライン、およびコードに関する詳細情報は、ドキュメントで入手できます。
| タスク | データセット | テクノロジー/モデル |
|---|---|---|
| 音声認識 | Aishell-1、CommonVoice、Dvoice、Ksponspeech、Librispeech、Media、RescuesPeech、Switchboard、Timit、Tedlium2、VoiceBank | CTC、トランスデューサー、トランス、SEQ2SEQ、CTC、SEQ2SEQ、トランスデューサーのBeamSearchテクニック)、Rescoring、Conformer、Branchformer、HyperConformer、Kaldi2-Fst |
| スピーカーの認識 | voxceleb | ECAPA-TDNN、RESNET、XVECTORS、PLDA、スコア正規化 |
| 音声分離 | wsj0mix、librimix、wham!、whamr!、aishell1mix、binouralwsj0mix | Sepformer、Resipformer、Skim、DualPath RNN、ConvtasNet |
| 音声強化 | DNS、ボイスバンク | Sepformer、Metricgan、Metricgan-U、Segan、Spectral Masking、Time Masking |
| 解釈可能性 | ESC50 | オーディオ分類子(L-MAC)のリスニング可能なマップ、解釈学習(L2I)、非陰性マトリックス因子化(NMF)、PIQ |
| 音声生成 | オーディオムニスト | 拡散、潜在的な拡散 |
| テキストからスピーチ | ljspeech、libritts | Tacotron2、ゼロショットマルチスピーカーTacotron2、FastSpeech2 |
| ボコディング | ljspeech、libritts | ヒフィガン、diffwave |
| 話し言葉の理解 | メディア、丸lur、流fluent音声コマンド、タイマーとシュシュ | 直接SLU、分離SLU、多段階SLU |
| スピーチからスピーチの翻訳 | CVSS | ディスクリートヒューバート、ヒフィガン、WAV2VEC2 |
| 音声翻訳 | Fisher Callhome(スペイン語)、IWSLT22(LowResource) | WAV2VEC2 |
| 感情分類 | iEmocap、zaionemotiondataset | ecapa-tdnn、wav2vec2、感情ダイアリゼーション |
| 言語識別 | Voxlingua107、CommonLanguage | Ecapa-tdnn |
| 音声アクティビティ検出 | Libriparty | crdnn |
| サウンド分類 | ESC50、Urbansound | CNN14、ecapa-tdnn |
| 自己教師の学習 | CommonVoice、Librispeech | WAV2VEC2 |
| メトリック学習 | Real-M、VoiceBank | ブラインドSNRを推定する、PESQ学習 |
| アライメント | タイミット | CTC、viterbi、前方に進みます |
| ダイアリゼーション | アミ | ECAPA-TDNN、Xベクター、スペクトルクラスタリング |
| タスク | データセット | テクノロジー/モデル |
|---|---|---|
| 言語モデリング | CommonVoice、Librispeech | n-grams、rnnlm、transformerlm |
| 応答生成 | マルチウォス | gpt2、llama2 |
| グラフェムから音量間 | Librispeech | RNN、トランス、カリキュラム学習、ホモグラフ損失 |
| タスク | データセット | テクノロジー/モデル |
|---|---|---|
| モーター画像 | BNCI2014001、BNCI2014004、BNCI2015001、LEE2019_MI、ZHOU201 | eegnet、shallowconvnet、eegconformer |
| P300 | BNCI2014009、EPFLP300、BI2015A、 | eegnet |
| SSVEP | LEE2019_SSVEP | eegnet |
SpeechBrainには、会話型AIテクノロジーの開発を強化するさまざまなネイティブ機能が含まれています。ここにいくつかの例があります:
トレーニングオーケストレーション: Brainクラスは、データ上のトレーニングループと評価ループを管理するための完全にカスタマイズ可能なツールとして機能します。プロセスの一部をオーバーライドする柔軟性を提供しながら、トレーニングループを簡素化します。
ハイパーパラメーター管理: YAMLベースのハイパーパラメーターファイルは、個々の数値(学習レートなど)からオブジェクトの完了(カスタムモデルなど)にすべてのハイパーパラメーターを指定します。このエレガントなソリューションは、トレーニングスクリプトを大幅に簡素化します。
Dynamic Dataloader:柔軟で効率的なデータ読み取り値を有効にします。
GPUトレーニング:分散トレーニングを含む単一およびマルチGPUトレーニングをサポートします。
動的バッチ:オンザフライダイナミックバッチは、可変長信号の効率的な処理を強化します。
混合精度トレーニング:混合精度技術を通じてトレーニングを加速します。
効率的なデータ読み取り: WebDataSetを介して共有ネットワークファイルシステム(NFS)から大きなデータセットを効率的に読み取ります。
顔の統合を抱き締める: WAV2VEC2やHubertなどの人気モデルのハグイングフェイスとシームレスにインターフェイス。
Orion Integration:ハイパーパラメーターチューニング用のOrionとのインターフェイス。
音声増強技術:スペックメント、ノイズ、反響などが含まれます。
データ準備スクリプト:サポートされているデータセットのためにデータを準備するためのスクリプトが含まれています。
Speechbrainは急速に進化しており、将来、増え続けるさまざまな技術をサポートするための継続的な取り組みがあります。
SpeechBrainは、競争力のあるまたは最先端のパフォーマンスを達成するものを含む、さまざまなテクノロジーを統合します。
さまざまなタスク、データセット、テクノロジーにわたる達成されたパフォーマンスの包括的な概要については、こちらをご覧ください。
次の優先事項に焦点を当てて、将来の野心的な計画があります。
スケールアップ:大規模なデータセットで大規模なモデルをトレーニングするための包括的なレシピとテクノロジーを提供することを目指しています。
スケールダウン:スケールアップが前例のないパフォーマンスを提供しながら、生産シナリオに大規模なモデルを展開するという課題を認識しています。私たちは、リアルタイム、ストリーミング可能、および小型の会話型AIに焦点を当てています。
マルチモーダルの大手言語モデル:単一の基礎モデルが幅広いテキスト、音声、オーディオタスクを処理できる未来を想定しています。私たちのコアチームは、高度なマルチモーダルLLMのトレーニングを可能にすることに焦点を当てています。
研究やビジネスでSpeechBrainを使用している場合は、次のBibtexエントリを使用して引用してください。
@misc { speechbrainV1 ,
title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
year = { 2024 } ,
eprint = { 2407.00463 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
year = { 2021 } ,
eprint = { 2106.04624 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS } ,
note = { arXiv:2106.04624 }
}