| 튜토리얼 | 웹 사이트 | 문서 | ? 기고 | ? 포옹 페이스 |
커뮤니티 프로젝트를 도와주세요. github에 별!
흥미 진진한 뉴스 (2024 년 1 월) : 여기에서 Speechbrain 1.0의 새로운 기능을 발견하십시오!
SpeechBrain은 대화식 AI 개발, 즉 스피치 어시스턴트 , 챗봇 및 대형 언어 모델 의 기술을 가속화하는 오픈 소스 Pytorch 툴킷입니다.
음성 및 텍스트 처리를위한 고급 기술을 빠르고 쉽게 만들 수 있도록 제작되었습니다.
딥 러닝이 증가함에 따라, 음성 처리 및 NLP와 같은 한 번의 원시 도메인은 이제 매우 가깝습니다. 잘 설계된 신경망과 대형 데이터 세트 만 있으면됩니다.
우리는 이제 인간의 뇌를 흉내 내고 복잡한 대화 AI 시스템을위한 다양한 기술을 공동으로 지원하는 전체 론적 툴킷 의시기라고 생각합니다.
이것은 음성 인식 , 화자 인식 , 음성 향상 , 언어 분리 , 언어 모델링 , 대화 및 그 이상에 걸쳐 있습니다.
비언어적 인 개인을 포함하여 자연스러운 인간-기계 대화에 대한 장기 목표와 일치하여 최근 EEG 양식에 대한 지원을 추가했습니다.
우리는 20 개의 음성 및 텍스트 처리 작업을 지원하는 40 개가 넘는 데이터 세트에서 200 개가 넘는 경쟁 교육 레시피를 공유합니다 (아래 참조).
우리는 처음부터 훈련과 Whisper, Wav2Vec2, Wavlm, Hubert, GPT2, LLAMA2 및 Beyond와 같은 미세 조정 사전 모델을 모두 지원합니다. Huggingface의 모델을 쉽게 연결하고 미세 조정할 수 있습니다.
모든 작업의 경우 다음 명령을 사용하여 모델을 훈련시킵니다.
python train . py hparams / train . yaml하이퍼 파라미터는 YAML 파일로 캡슐화되며 훈련 프로세스는 파이썬 스크립트를 통해 조정됩니다.
우리는 다른 작업에서 일관된 코드 구조를 유지했습니다.
더 나은 복제 성을 위해, 훈련 로그 및 체크 포인트는 Dropbox에서 호스팅됩니다.
from speechbrain . inference import EncoderDecoderASR
asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )연구 가속화 : 학업 및 산업 연구 속도. 기준선과의 성능을 비교하여 새로운 모델을 쉽게 개발하고 통합 할 수 있습니다.
⚡️ 빠른 프로토 타이핑 : 시간에 민감한 프로젝트에서 빠른 프로토 타이핑에 이상적입니다.
? 교육 도구 : SpeechBrain의 단순성은 귀중한 교육 자원입니다. Mila, Concordia University, Avignon University 및 기타 학생 교육과 같은 기관에서 사용합니다.
SpeechBrain을 시작하려면 다음과 같은 간단한 단계를 따르십시오.
PYPI를 사용하여 SpeechBrain을 설치하십시오.
pip install speechbrainPython 코드의 액세스 스피치 브레인 :
import speechbrain as sb이 설치는 실험을 수행하고 필요에 따라 툴킷을 사용자 정의하려는 사용자에게 권장됩니다.
Github 저장소를 복제하고 요구 사항을 설치하십시오.
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .Python 코드의 액세스 스피치 브레인 :
import speechbrain as sb speechbrain 패키지에 대한 모든 수정은 --editable 플래그 덕분에 자동으로 반영됩니다.
다음 명령을 실행하여 설치가 올바른지 확인하십시오.
pytest tests
pytest --doctest-modules speechbrainSpeechBrain에서는 다음 단계를 사용하여 모든 작업에 대한 모델을 교육 할 수 있습니다.
cd recipes / < dataset > / < task > /
python experiment . py params . yaml 결과는 Yaml 파일에 지정된 output_folder 에 저장됩니다.
웹 사이트 : 공식 웹 사이트에서 일반 정보를 살펴보십시오.
튜토리얼 : 기본 기능을 다루는 기본 튜토리얼로 시작하십시오. SpeechBrain 문서에서 튜토리얼 노트북 카테고리에서 고급 튜토리얼 및 주제를 찾으십시오.
문서 : SpeechBrain API, 기여 지침 및 코드에 대한 자세한 정보는 문서에서 확인할 수 있습니다.
| 작업 | 데이터 세트 | 기술/모델 |
|---|---|---|
| 음성 인식 | Aishell-1, CommonVoice, Dvoice, Ksponspeech, Librispeech, Media, Rescuespeech, Swegrboard, Timit, Tedlium2, VoiceBank | CTC, 트랜스 듀서, 변압기, SEQ2SEQ, CTC, SEQ2SEQ, 트랜스 듀서에 대한 빔 스러움 기술), 구조, 컨 포머, 브랜치 포맷, 하이퍼 컨포터, KALDI2-FST |
| 스피커 인식 | Voxceleb | ECAPA-TDNN, RESNET, XVECTORS, PLDA, 점수 정규화 |
| 언어 분리 | WSJ0mix, Librimix, Wham!, Whamr!, Aishell1mix, Binauralwsj0mix | Sepformer, resepformer, skim, dualpath rnn, convtasnet |
| 언어 향상 | DNS, VoiceBank | Sepformer, Metricgan, Metricgan-U, Segan, 스펙트럼 마스킹, 시간 마스킹 |
| 해석 가능성 | ESC50 | 오디오 분류기 (L-MAC), Learning-to-InterPret (L2I), 비 음성 매트릭스 인수화 (NMF), PIQ에 대한 청취 가능한지도 |
| 언어 생성 | 청각 인 | 확산, 잠재 확산 |
| 텍스트 음성 | ljspeech, libritts | 타코 트론 2, 제로 샷 멀티 스피커 타코 트론 2, Fastspeech2 |
| 보코딩 | ljspeech, libritts | Hifigan, diffwave |
| 언어 이해 | 미디어, 슬러프, 유창한 연설 명령, 타이머와 서치 | 직접 SLU, 분리 된 SLU, Multistage SLU |
| 음성 음성 변환 | CVS | 이산 허버트, Hifigan, WAV2VEC2 |
| 연설 번역 | Fisher Callhome (스페인어), IWSLT22 (LowResource) | WAV2VEC2 |
| 감정 분류 | IEMOCAP, ZAIONEMOTIONDATASET | ECAPA-TDNN, WAV2VEC2, 감정 발효 |
| 언어 식별 | Voxlingua107, CommonLanguage | ECAPA-TDNN |
| 음성 활동 감지 | libriparty | crdnn |
| 사운드 분류 | ESC50, urbansound | CNN14, ECAPA-TDNN |
| 자기 감독 학습 | CommonVoice, librispeech | WAV2VEC2 |
| 메트릭 학습 | Real-M, VoiceBank | 맹목적인 SNR 추정, PESQ 학습 |
| 조정 | 소심한 | CTC, Viterbi, 앞으로 |
| 발기 | 아미 | ECAPA-TDNN, X- 벡터, 스펙트럼 클러스터링 |
| 작업 | 데이터 세트 | 기술/모델 |
|---|---|---|
| 언어 모델링 | CommonVoice, librispeech | N- 그램, rnnlm, 변압기 |
| 응답 생성 | Multiwoz | GPT2, llama2 |
| Grapheme-to-Phoneme | librispeech | RNN, 변압기, 커리큘럼 학습, 호모 그래프 손실 |
| 작업 | 데이터 세트 | 기술/모델 |
|---|---|---|
| 모터 이미지 | BNCI2014001, BNCI2014004, BNCI2015001, LEE2019_MI, ZHOU201 | EEGNET, SHENDOWCONVNET, EEGCONFORMER |
| P300 | BNCI2014009, EPFLP300, BI2015A, | EEGNET |
| SSVEP | LEE2019_SSVEP | EEGNET |
SpeechBrain에는 대화 AI 기술의 개발을 향상시키는 다양한 기본 기능이 포함됩니다. 몇 가지 예는 다음과 같습니다.
훈련 오케스트레이션 : Brain Class는 데이터를 통한 교육 및 평가 루프를 관리하기위한 완전히 사용자 정의 가능한 도구 역할을합니다. 프로세스의 모든 부분을 무시할 수있는 유연성을 제공하면서 교육 루프를 단순화합니다.
하이퍼 파라미터 관리 : YAML 기반과 파라미터 파일은 개별 번호 (예 : 학습 속도)에서 완전한 객체 (예 : 사용자 정의 모델)에 이르기까지 모든 초반 미터를 지정합니다. 이 우아한 솔루션은 훈련 스크립트를 크게 단순화합니다.
동적 데이터 로더 : 유연하고 효율적인 데이터 읽기를 가능하게합니다.
GPU 교육 : 분산 교육을 포함한 단일 및 멀티 GPU 교육을 지원합니다.
동적 배치 : 현지 동적 배치는 가변 길이 신호의 효율적인 처리를 향상시킵니다.
혼합 공정 훈련 : 혼합 정제 기술을 통해 훈련을 가속화합니다.
효율적인 데이터 읽기 : WebDataset을 통해 공유 네트워크 파일 시스템 (NFS)에서 대규모 데이터 세트를 효율적으로 읽습니다.
포옹 얼굴 통합 : WAV2VEC2 및 Hubert와 같은 인기있는 모델을위한 포옹 페이스와 완벽하게 인터페이스.
오리온 통합 : 하이퍼 파라미터 튜닝을위한 오리온과의 인터페이스.
음성 증강 기술 : 종, 소음, 잔향 등이 포함됩니다.
데이터 준비 스크립트 : 지원되는 데이터 세트에 대한 데이터 준비를위한 스크립트가 포함되어 있습니다.
SpeechBrain은 향후 점점 더 많은 기술을 지원하려는 노력으로 빠르게 발전하고 있습니다.
SpeechBrain은 경쟁력 있거나 최첨단 성과를 달성하는 기술을 포함하여 다양한 기술을 통합합니다.
다양한 작업, 데이터 세트 및 기술에서 달성 된 성능에 대한 포괄적 인 개요를 보려면 여기를 방문하십시오.
우리는 다음과 같은 우선 순위에 중점을 둔 미래에 대한 야심 찬 계획을 가지고 있습니다.
스케일 업 : 우리는 광범위한 데이터 세트에서 대규모 모델을 훈련하기위한 포괄적 인 레시피 및 기술을 제공하는 것을 목표로합니다.
스케일 다운 : 스케일링은 전례없는 성능을 제공하지만 제작 시나리오에서 대형 모델을 배포 해야하는 문제를 인식합니다. 우리는 실시간, 스트림 가능 및 소규모 발자국 대화 AI에 중점을두고 있습니다.
멀티 모달 대형 언어 모델 : 우리는 단일 기초 모델이 광범위한 텍스트, 음성 및 오디오 작업을 처리 할 수있는 미래를 구상합니다. 우리의 핵심 팀은 고급 멀티 모달 LLM의 교육을 가능하게하는 데 중점을두고 있습니다.
연구 또는 비즈니스에서 SpeechBrain을 사용하는 경우 다음 Bibtex 항목을 사용하여 인용하십시오.
@misc { speechbrainV1 ,
title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
year = { 2024 } ,
eprint = { 2407.00463 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
year = { 2021 } ,
eprint = { 2106.04624 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS } ,
note = { arXiv:2106.04624 }
}