speechbrainのダウンロード-SpeechBrainソースコードspeechbrainダウンロード

speechbrain

AI ソースコード

v1.0.2

ダウンロード

コミュニティプロジェクトを手伝ってください。 Githubのスター！

エキサイティングなニュース（2024年1月）： Speechbrain 1.0で何が新しいかをここで発見してください！

SpeechBrainが提供するもの

SpeechBrainは、会話型AI開発、つまりスピーチアシスタント、チャットボット、大規模な言語モデルの背後にあるテクノロジーを加速するオープンソースのPytorchツールキットです。
音声とテキスト処理のための高度な技術を迅速かつ簡単に作成するために作成されています。

ビジョン

深い学習の台頭により、音声処理やNLPなどの一時的なドメインが非常に近いようになりました。適切に設計されたニューラルネットワークと大規模なデータセットが必要です。
今度は、人間の脳を模倣して、複雑な会話型AIシステムの多様な技術を共同でサポートする全体的なツールキットの時が来たと思います。
これは、音声認識、スピーカー認識、音声の強化、音声分離、言語モデリング、対話などに及びます。
非言語的個人を含む自然な人間の会話の長期的な目標と一致して、最近、EEGモダリティに対するサポートを追加しました。

トレーニングレシピ

20を超える競争力のあるトレーニングレシピを40を超えるデータセットで共有し、20の音声処理タスクとテキスト処理タスクをサポートしています（以下を参照）。
ゼロからのトレーニングと、whisper、wav2vec2、wavlm、hubert、gpt2、llama2などの微調整された冒険モデルの両方をサポートしています。 Huggingfaceのモデルは、簡単に接続して微調整できます。
どんなタスクでも、これらのコマンドを使用してモデルをトレーニングします。

 python train . py hparams / train . yaml

ハイパーパラメーターはYAMLファイルにカプセル化され、トレーニングプロセスはPythonスクリプトを介して調整されます。
さまざまなタスクで一貫したコード構造を維持しました。
複製可能性を向上させるために、トレーニングログとチェックポイントがDropboxでホストされています。

事前に保護されたモデルと推論

Huggingfaceでホストされている100を超える前提型モデルにアクセスします。
各モデルには、シームレスな推論用のユーザーフレンドリーなインターフェイスが付属しています。たとえば、事前に処理されたモデルを使用してスピーチを転写するには、3行のコードのみが必要です。

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

ドキュメント

私たちは、包括性と教育を促進することに深く専念しています。
Speechbrainの仕組みを説明するだけでなく、ユーザーが会話型AIに慣れるのに役立つ30以上のチュートリアルを執筆しました。
すべてのクラスまたは関数には、実行できる明確な説明と例があります。詳細については、ドキュメントをご覧ください。

ユースケース

研究の加速：学術および産業研究の高速化。新しいモデルを簡単に開発および統合し、パフォーマンスをベースラインと比較できます。
⚡唱：迅速なプロトタイピング：時間に敏感なプロジェクトでの迅速なプロトタイピングに最適です。
？教育ツール：SpeechBrainのシンプルさは、貴重な教育リソースになります。これは、MILA、コンコルディア大学、アヴィニョン大学、学生トレーニングのために他の多くの機関で使用されています。

クイックスタート

SpeechBrainを始めるには、これらの簡単な手順に従ってください。

インストール

Pypi経由でインストールします

Pypiを使用してSpeechBrainをインストールします。
```
pip install speechbrain
```
PythonコードにSpeechbrainにアクセス：
```
 import speechbrain as sb
```

Githubからインストールします

このインストールは、実験を実施し、ニーズに応じてツールキットをカスタマイズしたいユーザーに推奨されます。

githubリポジトリをクローンし、要件をインストールします。

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

PythonコードにSpeechbrainにアクセス：
```
 import speechbrain as sb
```

--editableフラグのおかげで、 speechbrainパッケージに加えられた変更は自動的に反映されます。

✔️インストールをテストします

次のコマンドを実行して、インストールが正しいことを確認してください。

pytest tests
pytest --doctest-modules speechbrain

？‍♂‍♂実験の実行

SpeechBrainでは、次の手順を使用して、あらゆるタスクのモデルをトレーニングできます。

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

結果は、YAMLファイルで指定されたoutput_folderに保存されます。

スピーチブレインの学習

ウェブサイト：公式ウェブサイトで一般的な情報を調べます。
チュートリアル：基本的な機能をカバーする基本的なチュートリアルから始めます。 SpeechBrainドキュメントのチュートリアルノートブックカテゴリで、高度なチュートリアルとトピックを見つけてください。
ドキュメント： SpeechBrain API、貢献ガイドライン、およびコードに関する詳細情報は、ドキュメントで入手できます。

？サポートされたテクノロジー

SpeechBrainは、会話型AIの分野で幅広いテクノロジーを実装するために設計された多目的フレームワークです。
個々のタスクの実装だけでなく、さまざまなテクノロジーを複雑なパイプラインに組み合わせることにも優れています。

？§/音声/オーディオ処理

タスク	データセット	テクノロジー/モデル
音声認識	Aishell-1、CommonVoice、Dvoice、Ksponspeech、Librispeech、Media、RescuesPeech、Switchboard、Timit、Tedlium2、VoiceBank	CTC、トランスデューサー、トランス、SEQ2SEQ、CTC、SEQ2SEQ、トランスデューサーのBeamSearchテクニック）、Rescoring、Conformer、Branchformer、HyperConformer、Kaldi2-Fst
スピーカーの認識	voxceleb	ECAPA-TDNN、RESNET、XVECTORS、PLDA、スコア正規化
音声分離	wsj0mix、librimix、wham！、whamr！、aishell1mix、binouralwsj0mix	Sepformer、Resipformer、Skim、DualPath RNN、ConvtasNet
音声強化	DNS、ボイスバンク	Sepformer、Metricgan、Metricgan-U、Segan、Spectral Masking、Time Masking
解釈可能性	ESC50	オーディオ分類子（L-MAC）のリスニング可能なマップ、解釈学習（L2I）、非陰性マトリックス因子化（NMF）、PIQ
音声生成	オーディオムニスト	拡散、潜在的な拡散
テキストからスピーチ	ljspeech、libritts	Tacotron2、ゼロショットマルチスピーカーTacotron2、FastSpeech2
ボコディング	ljspeech、libritts	ヒフィガン、diffwave
話し言葉の理解	メディア、丸lur、流fluent音声コマンド、タイマーとシュシュ	直接SLU、分離SLU、多段階SLU
スピーチからスピーチの翻訳	CVSS	ディスクリートヒューバート、ヒフィガン、WAV2VEC2
音声翻訳	Fisher Callhome（スペイン語）、IWSLT22（LowResource）	WAV2VEC2
感情分類	iEmocap、zaionemotiondataset	ecapa-tdnn、wav2vec2、感情ダイアリゼーション
言語識別	Voxlingua107、CommonLanguage	Ecapa-tdnn
音声アクティビティ検出	Libriparty	crdnn
サウンド分類	ESC50、Urbansound	CNN14、ecapa-tdnn
自己教師の学習	CommonVoice、Librispeech	WAV2VEC2
メトリック学習	Real-M、VoiceBank	ブラインドSNRを推定する、PESQ学習
アライメント	タイミット	CTC、viterbi、前方に進みます
ダイアリゼーション	アミ	ECAPA-TDNN、Xベクター、スペクトルクラスタリング

テキスト処理

タスク	データセット	テクノロジー/モデル
言語モデリング	CommonVoice、Librispeech	n-grams、rnnlm、transformerlm
応答生成	マルチウォス	gpt2、llama2
グラフェムから音量間	Librispeech	RNN、トランス、カリキュラム学習、ホモグラフ損失

？ EEG処理

タスク	データセット	テクノロジー/モデル
モーター画像	BNCI2014001、BNCI2014004、BNCI2015001、LEE2019_MI、ZHOU201	eegnet、shallowconvnet、eegconformer
P300	BNCI2014009、EPFLP300、BI2015A、	eegnet
SSVEP	LEE2019_SSVEP	eegnet

？追加機能

SpeechBrainには、会話型AIテクノロジーの開発を強化するさまざまなネイティブ機能が含まれています。ここにいくつかの例があります：

トレーニングオーケストレーション： Brainクラスは、データ上のトレーニングループと評価ループを管理するための完全にカスタマイズ可能なツールとして機能します。プロセスの一部をオーバーライドする柔軟性を提供しながら、トレーニングループを簡素化します。
ハイパーパラメーター管理： YAMLベースのハイパーパラメーターファイルは、個々の数値（学習レートなど）からオブジェクトの完了（カスタムモデルなど）にすべてのハイパーパラメーターを指定します。このエレガントなソリューションは、トレーニングスクリプトを大幅に簡素化します。
Dynamic Dataloader：柔軟で効率的なデータ読み取り値を有効にします。
GPUトレーニング：分散トレーニングを含む単一およびマルチGPUトレーニングをサポートします。
動的バッチ：オンザフライダイナミックバッチは、可変長信号の効率的な処理を強化します。
混合精度トレーニング：混合精度技術を通じてトレーニングを加速します。
効率的なデータ読み取り： WebDataSetを介して共有ネットワークファイルシステム（NFS）から大きなデータセットを効率的に読み取ります。
顔の統合を抱き締める： WAV2VEC2やHubertなどの人気モデルのハグイングフェイスとシームレスにインターフェイス。
Orion Integration：ハイパーパラメーターチューニング用のOrionとのインターフェイス。
音声増強技術：スペックメント、ノイズ、反響などが含まれます。
データ準備スクリプト：サポートされているデータセットのためにデータを準備するためのスクリプトが含まれています。

Speechbrainは急速に進化しており、将来、増え続けるさまざまな技術をサポートするための継続的な取り組みがあります。

パフォーマンス

SpeechBrainは、競争力のあるまたは最先端のパフォーマンスを達成するものを含む、さまざまなテクノロジーを統合します。
さまざまなタスク、データセット、テクノロジーにわたる達成されたパフォーマンスの包括的な概要については、こちらをご覧ください。

ライセンス

SpeechBrainは、人気のあるBSDのようなライセンスであるApacheライセンスバージョン2.0の下でリリースされます。
ライセンスヘッダーを保持する状態で、無料および商業目的の両方でスピーチブレインを自由に再配布できます。 GPLとは異なり、Apacheライセンスはバイラルではありません。つまり、ソースコードの変更をリリースする義務はありません。

？将来の計画

次の優先事項に焦点を当てて、将来の野心的な計画があります。

スケールアップ：大規模なデータセットで大規模なモデルをトレーニングするための包括的なレシピとテクノロジーを提供することを目指しています。
スケールダウン：スケールアップが前例のないパフォーマンスを提供しながら、生産シナリオに大規模なモデルを展開するという課題を認識しています。私たちは、リアルタイム、ストリーミング可能、および小型の会話型AIに焦点を当てています。
マルチモーダルの大手言語モデル：単一の基礎モデルが幅広いテキスト、音声、オーディオタスクを処理できる未来を想定しています。私たちのコアチームは、高度なマルチモーダルLLMのトレーニングを可能にすることに焦点を当てています。

？貢献

SpeechBrainは、コミュニティ主導のプロジェクトであり、多数の国際的な協力者をサポートするコアチームが率いています。
コミュニティからの貢献とアイデアを歓迎します。詳細については、こちらをご覧ください。

スポンサー

SpeechBrainは学問的に主導的なプロジェクトであり、貢献者の情熱と熱意に依存しています。
大企業のリソースに頼ることはできないため、コアチームとの寄付やコラボレーションなど、あらゆる形態のサポートに深く感謝しています。
SpeechBrainのスポンサーに興味がある場合は、[email protected]にご連絡ください。
心からのスポンサーを含むすべてのスポンサーに感謝します。

スピーチブレインを引用

研究やビジネスでSpeechBrainを使用している場合は、次のBibtexエントリを使用して引用してください。

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}