|教程|网站|文档| ?贡献| ?拥抱面|
请帮助我们的社区项目。明星在github上!
激动人心的消息(2024年1月):在这里发现Speechbrain 1.0中的新内容!
SpeechBrain是一种开源Pytorch工具包,可加速对话式AI开发,即语音助手,聊天机器人和大型语言模型背后的技术。
它是为了快速简便地创建用于语音和文本处理的高级技术而设计的。
随着深度学习的兴起,曾经遥远的领域(例如语音处理和NLP)现在非常接近。您需要一个精心设计的神经网络和大型数据集。
我们认为现在是一个整体工具包的时候了,模仿人的大脑,共同为复杂的对话AI系统提供了多种技术。
这涵盖了语音识别,说话者的识别,言语增强,语音分离,语言建模,对话等等。
与我们的自然人机对话(包括非语言个体)的长期目标保持一致,我们最近增加了对脑电图模式的支持。
我们在支持20个语音和文本处理任务的40多个数据集上共享200多个竞争培训食谱(请参见下文)。
我们支持从头开始的训练和微调预处理的模型,例如Whisper,Wav2Vec2,Wavlm,Hubert,GPT2,Llama2等。拥抱面上的模型可以轻松插入并进行微调。
对于任何任务,您可以使用以下命令训练模型:
python train . py hparams / train . yaml超参数封装在YAML文件中,而训练过程是通过Python脚本进行策划的。
我们在不同任务上保持了一致的代码结构。
为了获得更好的可复制性,在Dropbox上托管了培训日志和检查点。
from speechbrain . inference import EncoderDecoderASR
asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )研究加速:加快学术和工业研究。您可以轻松地开发和集成新模型,将其性能与我们的基线进行比较。
⚡️快速原型制作:适合在时间敏感项目中快速原型制作的理想选择。
?教育工具:语音脑的简单性使其成为宝贵的教育资源。米拉,康科迪亚大学,阿维尼翁大学等机构使用它进行学生培训。
要开始使用语音脑,请按照以下简单的步骤:
使用PYPI安装语音脑:
pip install speechbrainpython代码中的访问语音脑:
import speechbrain as sb建议使用希望进行实验并根据需要进行自定义的用户进行此安装。
克隆github存储库并安装要求:
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .python代码中的访问语音脑:
import speechbrain as sb借助--editable标志,对speechbrain包进行的任何修改都将自动反映。
通过运行以下命令来确保安装正确:
pytest tests
pytest --doctest-modules speechbrain在语音脑中,您可以使用以下步骤训练任何任务的模型:
cd recipes / < dataset > / < task > /
python experiment . py params . yaml结果将保存在YAML文件中指定的output_folder中。
网站:探索官方网站上的一般信息。
教程:从涵盖基本功能的基本教程开始。在语音脑文档中的教程笔记本类别中查找高级教程和主题。
文档:文档中提供有关语音脑API,贡献指南和代码的详细信息。
| 任务 | 数据集 | 技术/模型 |
|---|---|---|
| 语音识别 | Aishell-1,CommonVoice,dvoice,ksponspeech,librispeech,媒体,救援,打电话板,Timit,Tedlium2,VoiceBank | CTC,换能器,变压器,SEQ2SEQ,用于CTC的BeamSearch技术,SEQ2SEQ,传感器),撤回,构象异构体,分支构造器,超构造器,kaldi2-fst |
| 发言人的认可 | voxceleb | ECAPA-TDNN,RESNET,XVECTOR,PLDA,得分归一化 |
| 语音分离 | wsj0mix,librimix,wham!,, whamr!,aishell1mix,binauralwsj0mix | 隔离器,重新配置器,脱脂,双心车RNN,convtasnet |
| 言语增强 | DNS,VoiceBank | 隔离器,metricgan,metricgan-u,segan,频谱掩蔽,时间掩盖 |
| 解释性 | ESC50 | 音频分类器(L-MAC),学习与解释(L2I),非负矩阵分解(NMF),PIQ的可听图 |
| 语音产生 | 有听者 | 扩散,潜扩散 |
| 文本到语音 | ljspeech,库 | tacotron2,零射击多演讲者tacotron2,fastspeech2 |
| 声音 | ljspeech,库 | hifigan,diffwave |
| 口语理解 | 媒体,泥浆,流利的语音命令,计时器和类似 | 直接slu,脱钩的slu,多阶段slu |
| 语音到语音翻译 | CVSS | 离散的Hubert,Hifigan,wav2Vec2 |
| 语音翻译 | Fisher Callhome(西班牙语),IWSLT22(LowResource) | WAV2VEC2 |
| 情绪分类 | Iemocap,Zaionemotiondataset | ecapa-tdnn,wav2Vec2,情绪诊断 |
| 语言标识 | voxlingua107,公共语言 | ecapa-tdnn |
| 语音活动检测 | 图书馆 | Crdnn |
| 声音分类 | ESC50,Urbansound | CNN14,ECAPA-TDNN |
| 自我监督的学习 | commonvoice,librispeech | WAV2VEC2 |
| 公制学习 | Real-M,VoiceBank | 盲目估计,PESQ学习 |
| 结盟 | 圆润 | CTC,Viterbi,前进 |
| 诊断 | ami | ecapa-tdnn,X-向量,光谱聚类 |
| 任务 | 数据集 | 技术/模型 |
|---|---|---|
| 语言建模 | commonvoice,librispeech | n-grams,rnnlm,transformerlm |
| 响应产生 | 多沃兹 | GPT2,Llama2 |
| 字素至phoneme | librispeech | RNN,变压器,课程学习,同型损失 |
| 任务 | 数据集 | 技术/模型 |
|---|---|---|
| 汽车图像 | BNCI2014001,BNCI2014004,BNCI2015001,LEE2019_MI,ZHOU201 | EEGNET,ShallowConvnet,EegConformer |
| P300 | BNCI2014009,EPFLP300,BI2015A, | EEGNET |
| ssvep | Lee2019_SSVEP | EEGNET |
语音脑包含一系列天然功能,以增强对话人AI技术的发展。这里有一些例子:
培训编排: Brain课程是一个完全可定制的工具,用于管理数据的培训和评估循环。它简化了训练循环,同时提供了覆盖该过程的任何部分的灵活性。
超参数管理:基于YAML的超参数文件指定所有超参数,从单个数字(例如,学习率)到完成对象(例如,自定义模型)。这个优雅的解决方案大大简化了训练脚本。
动态数据加载器:启用灵活有效的数据读数。
GPU培训:支持单个和多GPU培训,包括分布式培训。
动态批处理:即时动态批处理可增强可变长度信号的有效处理。
混合精液培训:通过混合精液技术加速培训。
有效的数据读数:通过WebDataSet从共享网络文件系统(NFS)有效地读取大型数据集。
拥抱脸部集成:与wav2Vec2和Hubert等流行模型的拥抱面无缝接口。
猎户座集成:与猎户座的接口进行超参数调整。
语音增强技术:包括规格,噪音,混响等。
数据准备脚本:包括用于准备数据集的数据的脚本。
语音脑迅速发展,并正在进行的努力支持将来越来越多的技术。
语音脑融合了各种技术,包括那些实现竞争性或最先进性能的技术。
有关跨不同任务,数据集和技术的性能的全面概述,请访问此处。
我们对未来有雄心勃勃的计划,重点是以下优先事项:
扩大规模:我们旨在提供全面的食谱和技术,以在广泛的数据集中培训大规模模型。
缩小:在扩大规模时,会提供前所未有的性能,我们认识到在生产方案中部署大型模型的挑战。我们专注于实时,流式传输和小型的对话式AI。
多模式大语言模型:我们设想一个未来,单个基础模型可以处理各种文本,语音和音频任务。我们的核心团队专注于培训高级多模式LLM。
如果您在研究或业务中使用语音脑,请使用以下Bibtex条目引用它:
@misc { speechbrainV1 ,
title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
year = { 2024 } ,
eprint = { 2407.00463 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
year = { 2021 } ,
eprint = { 2106.04624 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS } ,
note = { arXiv:2106.04624 }
}