speechbrain下载 - speechbrain源代码下载

speechbrain

Ai源码

v1.0.2

下载

|教程|网站|文档| ？贡献| ？拥抱面| ▶q YouTube | ？ X |

请帮助我们的社区项目。明星在github上！

激动人心的消息（2024年1月）：在这里发现Speechbrain 1.0中的新内容！

语音脑提供的

SpeechBrain是一种开源Pytorch工具包，可加速对话式AI开发，即语音助手，聊天机器人和大型语言模型背后的技术。
它是为了快速简便地创建用于语音和文本处理的高级技术而设计的。

想象

随着深度学习的兴起，曾经遥远的领域（例如语音处理和NLP）现在非常接近。您需要一个精心设计的神经网络和大型数据集。
我们认为现在是一个整体工具包的时候了，模仿人的大脑，共同为复杂的对话AI系统提供了多种技术。
这涵盖了语音识别，说话者的识别，言语增强，语音分离，语言建模，对话等等。
与我们的自然人机对话（包括非语言个体）的长期目标保持一致，我们最近增加了对脑电图模式的支持。

培训食谱

我们在支持20个语音和文本处理任务的40多个数据集上共享200多个竞争培训食谱（请参见下文）。
我们支持从头开始的训练和微调预处理的模型，例如Whisper，Wav2Vec2，Wavlm，Hubert，GPT2，Llama2等。拥抱面上的模型可以轻松插入并进行微调。
对于任何任务，您可以使用以下命令训练模型：

 python train . py hparams / train . yaml

超参数封装在YAML文件中，而训练过程是通过Python脚本进行策划的。
我们在不同任务上保持了一致的代码结构。
为了获得更好的可复制性，在Dropbox上托管了培训日志和检查点。

预验证的模型和推理

在拥抱面上托管的100多个预处理的模型。
每个模型都有一个用于无缝推理的用户友好界面。例如，使用预验证的模型转录语音仅需要三行代码：

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

文档

我们非常致力于促进包容性和教育。
我们撰写了30多个教程，不仅描述了语音脑的工作原理，而且还可以帮助用户熟悉对话AI。
每个类或功能都有可以运行的明确解释和示例。查看文档以获取更多详细信息。

用例

研究加速：加快学术和工业研究。您可以轻松地开发和集成新模型，将其性能与我们的基线进行比较。
⚡️快速原型制作：适合在时间敏感项目中快速原型制作的理想选择。
？教育工具：语音脑的简单性使其成为宝贵的教育资源。米拉，康科迪亚大学，阿维尼翁大学等机构使用它进行学生培训。

快速开始

要开始使用语音脑，请按照以下简单的步骤：

安装

通过PYPI安装

使用PYPI安装语音脑：
```
pip install speechbrain
```
python代码中的访问语音脑：
```
 import speechbrain as sb
```

从Github安装

建议使用希望进行实验并根据需要进行自定义的用户进行此安装。

克隆github存储库并安装要求：

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

python代码中的访问语音脑：
```
 import speechbrain as sb
```

借助--editable标志，对speechbrain包进行的任何修改都将自动反映。

✔️测试安装

通过运行以下命令来确保安装正确：

pytest tests
pytest --doctest-modules speechbrain

？‍♂️进行实验

在语音脑中，您可以使用以下步骤训练任何任务的模型：

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

结果将保存在YAML文件中指定的output_folder中。

学习语音脑

网站：探索官方网站上的一般信息。
教程：从涵盖基本功能的基本教程开始。在语音脑文档中的教程笔记本类别中查找高级教程和主题。
文档：文档中提供有关语音脑API，贡献指南和代码的详细信息。

？支持的技术

SpeechBrain是一个多功能框架，旨在在对话AI领域内实施广泛的技术。
它不仅在单个任务实施中表现出色，而且在将各种技术组合为复杂的管道中。

？ch语音/音频处理

任务	数据集	技术/模型
语音识别	Aishell-1，CommonVoice，dvoice，ksponspeech，librispeech，媒体，救援，打电话板，Timit，Tedlium2，VoiceBank	CTC，换能器，变压器，SEQ2SEQ，用于CTC的BeamSearch技术，SEQ2SEQ，传感器），撤回，构象异构体，分支构造器，超构造器，kaldi2-fst
发言人的认可	voxceleb	ECAPA-TDNN，RESNET，XVECTOR，PLDA，得分归一化
语音分离	wsj0mix，librimix，wham！,, whamr！，aishell1mix，binauralwsj0mix	隔离器，重新配置器，脱脂，双心车RNN，convtasnet
言语增强	DNS，VoiceBank	隔离器，metricgan，metricgan-u，segan，频谱掩蔽，时间掩盖
解释性	ESC50	音频分类器（L-MAC），学习与解释（L2I），非负矩阵分解（NMF），PIQ的可听图
语音产生	有听者	扩散，潜扩散
文本到语音	ljspeech，库	tacotron2，零射击多演讲者tacotron2，fastspeech2
声音	ljspeech，库	hifigan，diffwave
口语理解	媒体，泥浆，流利的语音命令，计时器和类似	直接slu，脱钩的slu，多阶段slu
语音到语音翻译	CVSS	离散的Hubert，Hifigan，wav2Vec2
语音翻译	Fisher Callhome（西班牙语），IWSLT22（LowResource）	WAV2VEC2
情绪分类	Iemocap，Zaionemotiondataset	ecapa-tdnn，wav2Vec2，情绪诊断
语言标识	voxlingua107，公共语言	ecapa-tdnn
语音活动检测	图书馆	Crdnn
声音分类	ESC50，Urbansound	CNN14，ECAPA-TDNN
自我监督的学习	commonvoice，librispeech	WAV2VEC2
公制学习	Real-M，VoiceBank	盲目估计，PESQ学习
结盟	圆润	CTC，Viterbi，前进
诊断	ami	ecapa-tdnn，X-向量，光谱聚类

文本处理

任务	数据集	技术/模型
语言建模	commonvoice，librispeech	n-grams，rnnlm，transformerlm
响应产生	多沃兹	GPT2，Llama2
字素至phoneme	librispeech	RNN，变压器，课程学习，同型损失

？脑电处理

任务	数据集	技术/模型
汽车图像	BNCI2014001，BNCI2014004，BNCI2015001，LEE2019_MI，ZHOU201	EEGNET，ShallowConvnet，EegConformer
P300	BNCI2014009，EPFLP300，BI2015A，	EEGNET
ssvep	Lee2019_SSVEP	EEGNET

？其他功能

语音脑包含一系列天然功能，以增强对话人AI技术的发展。这里有一些例子：

培训编排： Brain课程是一个完全可定制的工具，用于管理数据的培训和评估循环。它简化了训练循环，同时提供了覆盖该过程的任何部分的灵活性。
超参数管理：基于YAML的超参数文件指定所有超参数，从单个数字（例如，学习率）到完成对象（例如，自定义模型）。这个优雅的解决方案大大简化了训练脚本。
动态数据加载器：启用灵活有效的数据读数。
GPU培训：支持单个和多GPU培训，包括分布式培训。
动态批处理：即时动态批处理可增强可变长度信号的有效处理。
混合精液培训：通过混合精液技术加速培训。
有效的数据读数：通过WebDataSet从共享网络文件系统（NFS）有效地读取大型数据集。
拥抱脸部集成：与wav2Vec2和Hubert等流行模型的拥抱面无缝接口。
猎户座集成：与猎户座的接口进行超参数调整。
语音增强技术：包括规格，噪音，混响等。
数据准备脚本：包括用于准备数据集的数据的脚本。

语音脑迅速发展，并正在进行的努力支持将来越来越多的技术。

表现

语音脑融合了各种技术，包括那些实现竞争性或最先进性能的技术。
有关跨不同任务，数据集和技术的性能的全面概述，请访问此处。

执照

语音脑的发布于Apache许可证，2.0版，这是一种流行的BSD式许可证。
您可以自由地重新分发语音脑，以提供免费和商业目的，并保留许可证标头的条件。与GPL不同，Apache许可不是病毒，这意味着您没有义务对源代码发布修改。

未来的计划

我们对未来有雄心勃勃的计划，重点是以下优先事项：

扩大规模：我们旨在提供全面的食谱和技术，以在广泛的数据集中培训大规模模型。
缩小：在扩大规模时，会提供前所未有的性能，我们认识到在生产方案中部署大型模型的挑战。我们专注于实时，流式传输和小型的对话式AI。
多模式大语言模型：我们设想一个未来，单个基础模型可以处理各种文本，语音和音频任务。我们的核心团队专注于培训高级多模式LLM。

？贡献

Speechbrain是一个由社区驱动的项目，由核心团队领导，并由众多国际合作者的支持。
我们欢迎社区的贡献和想法。有关更多信息，请在此处查看。

赞助商

Speechbrain是一个以学术驱动的项目，依靠其贡献者的热情和热情。
由于我们不能依靠大型公司的资源，因此我们非常感谢任何形式的支持，包括捐赠或与核心团队的合作。
如果您有兴趣赞助语音脑，请通过[email protected]与我们联系。
衷心感谢我们的所有赞助商，包括当前的赞助商：

引用语音脑

如果您在研究或业务中使用语音脑，请使用以下Bibtex条目引用它：

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}