|教程|網站|文檔| ?貢獻| ?擁抱面|
請幫助我們的社區項目。明星在github上!
激動人心的消息(2024年1月):在這裡發現Speechbrain 1.0中的新內容!
SpeechBrain是一種開源Pytorch工具包,可加速對話式AI開發,即語音助手,聊天機器人和大型語言模型背後的技術。
它是為了快速簡便地創建用於語音和文本處理的高級技術而設計的。
隨著深度學習的興起,曾經遙遠的領域(例如語音處理和NLP)現在非常接近。您需要一個精心設計的神經網絡和大型數據集。
我們認為現在是一個整體工具包的時候了,模仿人的大腦,共同為複雜的對話AI系統提供了多種技術。
這涵蓋了語音識別,說話者的識別,言語增強,語音分離,語言建模,對話等等。
與我們的自然人機對話(包括非語言個體)的長期目標保持一致,我們最近增加了對腦電圖模式的支持。
我們在支持20個語音和文本處理任務的40多個數據集上共享200多個競爭培訓食譜(請參見下文)。
我們支持從頭開始的訓練和微調預處理的模型,例如Whisper,Wav2Vec2,Wavlm,Hubert,GPT2,Llama2等。擁抱面上的模型可以輕鬆插入並進行微調。
對於任何任務,您可以使用以下命令訓練模型:
python train . py hparams / train . yaml超參數封裝在YAML文件中,而訓練過程是通過Python腳本進行策劃的。
我們在不同任務上保持了一致的代碼結構。
為了獲得更好的可複制性,在Dropbox上託管了培訓日誌和檢查點。
from speechbrain . inference import EncoderDecoderASR
asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )研究加速:加快學術和工業研究。您可以輕鬆地開發和集成新模型,將其性能與我們的基線進行比較。
⚡️快速原型製作:適合在時間敏感項目中快速原型製作的理想選擇。
?教育工具:語音腦的簡單性使其成為寶貴的教育資源。米拉,康科迪亞大學,阿維尼翁大學等機構使用它進行學生培訓。
要開始使用語音腦,請按照以下簡單的步驟:
使用PYPI安裝語音腦:
pip install speechbrainpython代碼中的訪問語音腦:
import speechbrain as sb建議使用希望進行實驗並根據需要進行自定義的用戶進行此安裝。
克隆github存儲庫並安裝要求:
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .python代碼中的訪問語音腦:
import speechbrain as sb借助--editable標誌,對speechbrain包進行的任何修改都將自動反映。
通過運行以下命令來確保安裝正確:
pytest tests
pytest --doctest-modules speechbrain在語音腦中,您可以使用以下步驟訓練任何任務的模型:
cd recipes / < dataset > / < task > /
python experiment . py params . yaml結果將保存在YAML文件中指定的output_folder中。
網站:探索官方網站上的一般信息。
教程:從涵蓋基本功能的基本教程開始。在語音腦文檔中的教程筆記本類別中查找高級教程和主題。
文檔:文檔中提供有關語音腦API,貢獻指南和代碼的詳細信息。
| 任務 | 數據集 | 技術/模型 |
|---|---|---|
| 語音識別 | Aishell-1,CommonVoice,dvoice,ksponspeech,librispeech,媒體,救援,打電話板,Timit,Tedlium2,VoiceBank | CTC,換能器,變壓器,SEQ2SEQ,用於CTC的BeamSearch技術,SEQ2SEQ,傳感器),撤回,構象異構體,分支構造器,超構造器,kaldi2-fst |
| 發言人的認可 | voxceleb | ECAPA-TDNN,RESNET,XVECTOR,PLDA,得分歸一化 |
| 語音分離 | wsj0mix,librimix,wham! ,, whamr! ,aishell1mix,binauralwsj0mix | 隔離器,重新配置器,脫脂,雙心車RNN,convtasnet |
| 言語增強 | DNS,VoiceBank | 隔離器,metricgan,metricgan-u,segan,頻譜掩蔽,時間掩蓋 |
| 解釋性 | ESC50 | 音頻分類器(L-MAC),學習與解釋(L2I),非負矩陣分解(NMF),PIQ的可聽圖 |
| 語音產生 | 有聽者 | 擴散,潛擴散 |
| 文本到語音 | ljspeech,庫 | tacotron2,零射擊多演講者tacotron2,fastspeech2 |
| 聲音 | ljspeech,庫 | hifigan,diffwave |
| 口語理解 | 媒體,泥漿,流利的語音命令,計時器和類似 | 直接slu,脫鉤的slu,多階段slu |
| 語音到語音翻譯 | CVSS | 離散的Hubert,Hifigan,wav2Vec2 |
| 語音翻譯 | Fisher Callhome(西班牙語),IWSLT22(LowResource) | WAV2VEC2 |
| 情緒分類 | Iemocap,Zaionemotiondataset | ecapa-tdnn,wav2Vec2,情緒診斷 |
| 語言標識 | voxlingua107,公共語言 | ecapa-tdnn |
| 語音活動檢測 | 圖書館 | Crdnn |
| 聲音分類 | ESC50,Urbansound | CNN14,ECAPA-TDNN |
| 自我監督的學習 | commonvoice,librispeech | WAV2VEC2 |
| 公制學習 | Real-M,VoiceBank | 盲目估計,PESQ學習 |
| 結盟 | 圓潤 | CTC,Viterbi,前進 |
| 診斷 | ami | ecapa-tdnn,X-向量,光譜聚類 |
| 任務 | 數據集 | 技術/模型 |
|---|---|---|
| 語言建模 | commonvoice,librispeech | n-grams,rnnlm,transformerlm |
| 響應產生 | 多沃茲 | GPT2,Llama2 |
| 字素至phoneme | librispeech | RNN,變壓器,課程學習,同型損失 |
| 任務 | 數據集 | 技術/模型 |
|---|---|---|
| 汽車圖像 | BNCI2014001,BNCI2014004,BNCI2015001,LEE2019_MI,ZHOU201 | EEGNET,ShallowConvnet,EegConformer |
| P300 | BNCI2014009,EPFLP300,BI2015A, | EEGNET |
| ssvep | Lee2019_SSVEP | EEGNET |
語音腦包含一系列天然功能,以增強對話人AI技術的發展。這裡有一些例子:
培訓編排: Brain課程是一個完全可定制的工具,用於管理數據的培訓和評估循環。它簡化了訓練循環,同時提供了覆蓋該過程的任何部分的靈活性。
超參數管理:基於YAML的超參數文件指定所有超參數,從單個數字(例如,學習率)到完成對象(例如,自定義模型)。這個優雅的解決方案大大簡化了訓練腳本。
動態數據加載器:啟用靈活有效的數據讀數。
GPU培訓:支持單個和多GPU培訓,包括分佈式培訓。
動態批處理:即時動態批處理可增強可變長度信號的有效處理。
混合精液培訓:通過混合精液技術加速培訓。
有效的數據讀數:通過WebDataSet從共享網絡文件系統(NFS)有效地讀取大型數據集。
擁抱臉部集成:與wav2Vec2和Hubert等流行模型的擁抱面無縫接口。
獵戶座集成:與獵戶座的接口進行超參數調整。
語音增強技術:包括規格,噪音,混響等。
數據準備腳本:包括用於準備數據集的數據的腳本。
語音腦迅速發展,並正在進行的努力支持將來越來越多的技術。
語音腦融合了各種技術,包括那些實現競爭性或最先進性能的技術。
有關跨不同任務,數據集和技術的性能的全面概述,請訪問此處。
我們對未來有雄心勃勃的計劃,重點是以下優先事項:
擴大規模:我們旨在提供全面的食譜和技術,以在廣泛的數據集中培訓大規模模型。
縮小:在擴大規模時,會提供前所未有的性能,我們認識到在生產方案中部署大型模型的挑戰。我們專注於實時,流式傳輸和小型的對話式AI。
多模式大語言模型:我們設想一個未來,單個基礎模型可以處理各種文本,語音和音頻任務。我們的核心團隊專注於培訓高級多模式LLM。
如果您在研究或業務中使用語音腦,請使用以下Bibtex條目引用它:
@misc { speechbrainV1 ,
title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
year = { 2024 } ,
eprint = { 2407.00463 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
year = { 2021 } ,
eprint = { 2106.04624 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS } ,
note = { arXiv:2106.04624 }
}