speechbrain下載 - speechbrain源代碼下載

speechbrain

Ai源碼

v1.0.2

下載

|教程|網站|文檔| ？貢獻| ？擁抱面| ▶q YouTube | ？ X |

請幫助我們的社區項目。明星在github上！

激動人心的消息（2024年1月）：在這裡發現Speechbrain 1.0中的新內容！

語音腦提供的

SpeechBrain是一種開源Pytorch工具包，可加速對話式AI開發，即語音助手，聊天機器人和大型語言模型背後的技術。
它是為了快速簡便地創建用於語音和文本處理的高級技術而設計的。

想像

隨著深度學習的興起，曾經遙遠的領域（例如語音處理和NLP）現在非常接近。您需要一個精心設計的神經網絡和大型數據集。
我們認為現在是一個整體工具包的時候了，模仿人的大腦，共同為複雜的對話AI系統提供了多種技術。
這涵蓋了語音識別，說話者的識別，言語增強，語音分離，語言建模，對話等等。
與我們的自然人機對話（包括非語言個體）的長期目標保持一致，我們最近增加了對腦電圖模式的支持。

培訓食譜

我們在支持20個語音和文本處理任務的40多個數據集上共享200多個競爭培訓食譜（請參見下文）。
我們支持從頭開始的訓練和微調預處理的模型，例如Whisper，Wav2Vec2，Wavlm，Hubert，GPT2，Llama2等。擁抱面上的模型可以輕鬆插入並進行微調。
對於任何任務，您可以使用以下命令訓練模型：

 python train . py hparams / train . yaml

超參數封裝在YAML文件中，而訓練過程是通過Python腳本進行策劃的。
我們在不同任務上保持了一致的代碼結構。
為了獲得更好的可複制性，在Dropbox上託管了培訓日誌和檢查點。

預驗證的模型和推理

在擁抱面上託管的100多個預處理的模型。
每個模型都有一個用於無縫推理的用戶友好界面。例如，使用預驗證的模型轉錄語音僅需要三行代碼：

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

文件

我們非常致力於促進包容性和教育。
我們撰寫了30多個教程，不僅描述了語音腦的工作原理，而且還可以幫助用戶熟悉對話AI。
每個類或功能都有可以運行的明確解釋和示例。查看文檔以獲取更多詳細信息。

用例

研究加速：加快學術和工業研究。您可以輕鬆地開發和集成新模型，將其性能與我們的基線進行比較。
⚡️快速原型製作：適合在時間敏感項目中快速原型製作的理想選擇。
？教育工具：語音腦的簡單性使其成為寶貴的教育資源。米拉，康科迪亞大學，阿維尼翁大學等機構使用它進行學生培訓。

快速開始

要開始使用語音腦，請按照以下簡單的步驟：

安裝

通過PYPI安裝

使用PYPI安裝語音腦：
```
pip install speechbrain
```
python代碼中的訪問語音腦：
```
 import speechbrain as sb
```

從Github安裝

建議使用希望進行實驗並根據需要進行自定義的用戶進行此安裝。

克隆github存儲庫並安裝要求：

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

python代碼中的訪問語音腦：
```
 import speechbrain as sb
```

借助--editable標誌，對speechbrain包進行的任何修改都將自動反映。

✔️測試安裝

通過運行以下命令來確保安裝正確：

pytest tests
pytest --doctest-modules speechbrain

？ ‍♂️進行實驗

在語音腦中，您可以使用以下步驟訓練任何任務的模型：

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

結果將保存在YAML文件中指定的output_folder中。

學習語音腦

網站：探索官方網站上的一般信息。
教程：從涵蓋基本功能的基本教程開始。在語音腦文檔中的教程筆記本類別中查找高級教程和主題。
文檔：文檔中提供有關語音腦API，貢獻指南和代碼的詳細信息。

？支持的技術

SpeechBrain是一個多功能框架，旨在在對話AI領域內實施廣泛的技術。
它不僅在單個任務實施中表現出色，而且在將各種技術組合為複雜的管道中。

？ ch語音/音頻處理

任務	數據集	技術/模型
語音識別	Aishell-1，CommonVoice，dvoice，ksponspeech，librispeech，媒體，救援，打電話板，Timit，Tedlium2，VoiceBank	CTC，換能器，變壓器，SEQ2SEQ，用於CTC的BeamSearch技術，SEQ2SEQ，傳感器），撤回，構象異構體，分支構造器，超構造器，kaldi2-fst
發言人的認可	voxceleb	ECAPA-TDNN，RESNET，XVECTOR，PLDA，得分歸一化
語音分離	wsj0mix，librimix，wham！ ,, whamr！，aishell1mix，binauralwsj0mix	隔離器，重新配置器，脫脂，雙心車RNN，convtasnet
言語增強	DNS，VoiceBank	隔離器，metricgan，metricgan-u，segan，頻譜掩蔽，時間掩蓋
解釋性	ESC50	音頻分類器（L-MAC），學習與解釋（L2I），非負矩陣分解（NMF），PIQ的可聽圖
語音產生	有聽者	擴散，潛擴散
文本到語音	ljspeech，庫	tacotron2，零射擊多演講者tacotron2，fastspeech2
聲音	ljspeech，庫	hifigan，diffwave
口語理解	媒體，泥漿，流利的語音命令，計時器和類似	直接slu，脫鉤的slu，多階段slu
語音到語音翻譯	CVSS	離散的Hubert，Hifigan，wav2Vec2
語音翻譯	Fisher Callhome（西班牙語），IWSLT22（LowResource）	WAV2VEC2
情緒分類	Iemocap，Zaionemotiondataset	ecapa-tdnn，wav2Vec2，情緒診斷
語言標識	voxlingua107，公共語言	ecapa-tdnn
語音活動檢測	圖書館	Crdnn
聲音分類	ESC50，Urbansound	CNN14，ECAPA-TDNN
自我監督的學習	commonvoice，librispeech	WAV2VEC2
公制學習	Real-M，VoiceBank	盲目估計，PESQ學習
結盟	圓潤	CTC，Viterbi，前進
診斷	ami	ecapa-tdnn，X-向量，光譜聚類

文本處理

任務	數據集	技術/模型
語言建模	commonvoice，librispeech	n-grams，rnnlm，transformerlm
響應產生	多沃茲	GPT2，Llama2
字素至phoneme	librispeech	RNN，變壓器，課程學習，同型損失

？腦電處理

任務	數據集	技術/模型
汽車圖像	BNCI2014001，BNCI2014004，BNCI2015001，LEE2019_MI，ZHOU201	EEGNET，ShallowConvnet，EegConformer
P300	BNCI2014009，EPFLP300，BI2015A，	EEGNET
ssvep	Lee2019_SSVEP	EEGNET

？其他功能

語音腦包含一系列天然功能，以增強對話人AI技術的發展。這裡有一些例子：

培訓編排： Brain課程是一個完全可定制的工具，用於管理數據的培訓和評估循環。它簡化了訓練循環，同時提供了覆蓋該過程的任何部分的靈活性。
超參數管理：基於YAML的超參數文件指定所有超參數，從單個數字（例如，學習率）到完成對象（例如，自定義模型）。這個優雅的解決方案大大簡化了訓練腳本。
動態數據加載器：啟用靈活有效的數據讀數。
GPU培訓：支持單個和多GPU培訓，包括分佈式培訓。
動態批處理：即時動態批處理可增強可變長度信號的有效處理。
混合精液培訓：通過混合精液技術加速培訓。
有效的數據讀數：通過WebDataSet從共享網絡文件系統（NFS）有效地讀取大型數據集。
擁抱臉部集成：與wav2Vec2和Hubert等流行模型的擁抱面無縫接口。
獵戶座集成：與獵戶座的接口進行超參數調整。
語音增強技術：包括規格，噪音，混響等。
數據準備腳本：包括用於準備數據集的數據的腳本。

語音腦迅速發展，並正在進行的努力支持將來越來越多的技術。

表現

語音腦融合了各種技術，包括那些實現競爭性或最先進性能的技術。
有關跨不同任務，數據集和技術的性能的全面概述，請訪問此處。

執照

語音腦的發佈於Apache許可證，2.0版，這是一種流行的BSD式許可證。
您可以自由地重新分發語音腦，以提供免費和商業目的，並保留許可證標頭的條件。與GPL不同，Apache許可不是病毒，這意味著您沒有義務對源代碼發布修改。

未來的計劃

我們對未來有雄心勃勃的計劃，重點是以下優先事項：

擴大規模：我們旨在提供全面的食譜和技術，以在廣泛的數據集中培訓大規模模型。
縮小：在擴大規模時，會提供前所未有的性能，我們認識到在生產方案中部署大型模型的挑戰。我們專注於實時，流式傳輸和小型的對話式AI。
多模式大語言模型：我們設想一個未來，單個基礎模型可以處理各種文本，語音和音頻任務。我們的核心團隊專注於培訓高級多模式LLM。

？貢獻

Speechbrain是一個由社區驅動的項目，由核心團隊領導，並由眾多國際合作者的支持。
我們歡迎社區的貢獻和想法。有關更多信息，請在此處查看。

贊助商

Speechbrain是一個以學術驅動的項目，依靠其貢獻者的熱情和熱情。
由於我們不能依靠大型公司的資源，因此我們非常感謝任何形式的支持，包括捐贈或與核心團隊的合作。
如果您有興趣贊助語音腦，請通過[email protected]與我們聯繫。
衷心感謝我們的所有贊助商，包括當前的讚助商：

引用語音腦

如果您在研究或業務中使用語音腦，請使用以下Bibtex條目引用它：

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}

展開

附加信息

版本 v1.0.2
類型 Ai源碼
更新時間 2025-09-07
大小 25.41MB
來自於 Github

相關應用

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
ML stack

Ai源碼

1.0.0
awesome free chatgpt

Ai源碼

1.0.0
pywin_contextmenu

Ai源碼

Version update
Google Dorks

其他源碼

1.0
shepherd

其他源碼

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

其他源碼

v1.1.0-rc-3

相關資訊全部