speechbrain 다운로드 - speechbrain 소스 코드 다운로드

speechbrain

AI 소스 코드

v1.0.2

다운로드

| 튜토리얼 | 웹 사이트 | 문서 | ? 기고 | ? 포옹 페이스 | ▶ ️ YouTube | ? x |

커뮤니티 프로젝트를 도와주세요. github에 별!

흥미 진진한 뉴스 (2024 년 1 월) : 여기에서 Speechbrain 1.0의 새로운 기능을 발견하십시오!

Speechbrain이 제공하는 것

SpeechBrain은 대화식 AI 개발, 즉 스피치 어시스턴트 , 챗봇 및 대형 언어 모델 의 기술을 가속화하는 오픈 소스 Pytorch 툴킷입니다.
음성 및 텍스트 처리를위한 고급 기술을 빠르고 쉽게 만들 수 있도록 제작되었습니다.

비전

딥 러닝이 증가함에 따라, 음성 처리 및 NLP와 같은 한 번의 원시 도메인은 이제 매우 가깝습니다. 잘 설계된 신경망과 대형 데이터 세트 만 있으면됩니다.
우리는 이제 인간의 뇌를 흉내 내고 복잡한 대화 AI 시스템을위한 다양한 기술을 공동으로 지원하는 전체 론적 툴킷 의시기라고 생각합니다.
이것은 음성 인식 , 화자 인식 , 음성 향상 , 언어 분리 , 언어 모델링 , 대화 및 그 이상에 걸쳐 있습니다.
비언어적 인 개인을 포함하여 자연스러운 인간-기계 대화에 대한 장기 목표와 일치하여 최근 EEG 양식에 대한 지원을 추가했습니다.

훈련 레시피

우리는 20 개의 음성 및 텍스트 처리 작업을 지원하는 40 개가 넘는 데이터 세트에서 200 개가 넘는 경쟁 교육 레시피를 공유합니다 (아래 참조).
우리는 처음부터 훈련과 Whisper, Wav2Vec2, Wavlm, Hubert, GPT2, LLAMA2 및 Beyond와 같은 미세 조정 사전 모델을 모두 지원합니다. Huggingface의 모델을 쉽게 연결하고 미세 조정할 수 있습니다.
모든 작업의 경우 다음 명령을 사용하여 모델을 훈련시킵니다.

 python train . py hparams / train . yaml

하이퍼 파라미터는 YAML 파일로 캡슐화되며 훈련 프로세스는 파이썬 스크립트를 통해 조정됩니다.
우리는 다른 작업에서 일관된 코드 구조를 유지했습니다.
더 나은 복제 성을 위해, 훈련 로그 및 체크 포인트는 Dropbox에서 호스팅됩니다.

사전 예방 모델과 추론

Huggingf
각 모델에는 원활한 추론을위한 사용자 친화적 인 인터페이스가 제공됩니다. 예를 들어, 사전 준비된 모델을 사용하여 음성을 기록하는 것은 3 줄의 코드 만 필요합니다.

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

선적 서류 비치

우리는 포용성과 교육을 홍보하는 데 깊이 헌신하고 있습니다.
우리는 SpeechBrain의 작동 방식을 설명 할뿐만 아니라 사용자가 대화 AI에 익숙해지는 데 도움이되는 30 개가 넘는 튜토리얼을 작성했습니다.
모든 클래스 또는 기능에는 실행할 수있는 명확한 설명과 예제가 있습니다. 자세한 내용은 문서를 확인하십시오.

사용 사례

연구 가속화 : 학업 및 산업 연구 속도. 기준선과의 성능을 비교하여 새로운 모델을 쉽게 개발하고 통합 할 수 있습니다.
⚡️ 빠른 프로토 타이핑 : 시간에 민감한 프로젝트에서 빠른 프로토 타이핑에 이상적입니다.
? 교육 도구 : SpeechBrain의 단순성은 귀중한 교육 자원입니다. Mila, Concordia University, Avignon University 및 기타 학생 교육과 같은 기관에서 사용합니다.

빠른 시작

SpeechBrain을 시작하려면 다음과 같은 간단한 단계를 따르십시오.

설치

PYPI를 통해 설치하십시오

PYPI를 사용하여 SpeechBrain을 설치하십시오.
```
pip install speechbrain
```
Python 코드의 액세스 스피치 브레인 :
```
 import speechbrain as sb
```

Github에서 설치하십시오

이 설치는 실험을 수행하고 필요에 따라 툴킷을 사용자 정의하려는 사용자에게 권장됩니다.

Github 저장소를 복제하고 요구 사항을 설치하십시오.

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

Python 코드의 액세스 스피치 브레인 :
```
 import speechbrain as sb
```

speechbrain 패키지에 대한 모든 수정은 --editable 플래그 덕분에 자동으로 반영됩니다.

✔️ 테스트 설치

다음 명령을 실행하여 설치가 올바른지 확인하십시오.

pytest tests
pytest --doctest-modules speechbrain

? exper 대담추 실험을 실행합니다

SpeechBrain에서는 다음 단계를 사용하여 모든 작업에 대한 모델을 교육 할 수 있습니다.

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

결과는 Yaml 파일에 지정된 output_folder 에 저장됩니다.

학습 Speechbrain

웹 사이트 : 공식 웹 사이트에서 일반 정보를 살펴보십시오.
튜토리얼 : 기본 기능을 다루는 기본 튜토리얼로 시작하십시오. SpeechBrain 문서에서 튜토리얼 노트북 카테고리에서 고급 튜토리얼 및 주제를 찾으십시오.
문서 : SpeechBrain API, 기여 지침 및 코드에 대한 자세한 정보는 문서에서 확인할 수 있습니다.

? 지원되는 기술

SpeechBrain은 대화 AI 분야에서 광범위한 기술을 구현하도록 설계된 다양한 프레임 워크입니다.
개별 작업 구현뿐만 아니라 다양한 기술을 복잡한 파이프 라인으로 결합하는 데 탁월합니다.

? ️ 음성/오디오 처리

작업	데이터 세트	기술/모델
음성 인식	Aishell-1, CommonVoice, Dvoice, Ksponspeech, Librispeech, Media, Rescuespeech, Swegrboard, Timit, Tedlium2, VoiceBank	CTC, 트랜스 듀서, 변압기, SEQ2SEQ, CTC, SEQ2SEQ, 트랜스 듀서에 대한 빔 스러움 기술), 구조, 컨 포머, 브랜치 포맷, 하이퍼 컨포터, KALDI2-FST
스피커 인식	Voxceleb	ECAPA-TDNN, RESNET, XVECTORS, PLDA, 점수 정규화
언어 분리	WSJ0mix, Librimix, Wham!, Whamr!, Aishell1mix, Binauralwsj0mix	Sepformer, resepformer, skim, dualpath rnn, convtasnet
언어 향상	DNS, VoiceBank	Sepformer, Metricgan, Metricgan-U, Segan, 스펙트럼 마스킹, 시간 마스킹
해석 가능성	ESC50	오디오 분류기 (L-MAC), Learning-to-InterPret (L2I), 비 음성 매트릭스 인수화 (NMF), PIQ에 대한 청취 가능한지도
언어 생성	청각 인	확산, 잠재 확산
텍스트 음성	ljspeech, libritts	타코 트론 2, 제로 샷 멀티 스피커 타코 트론 2, Fastspeech2
보코딩	ljspeech, libritts	Hifigan, diffwave
언어 이해	미디어, 슬러프, 유창한 연설 명령, 타이머와 서치	직접 SLU, 분리 된 SLU, Multistage SLU
음성 음성 변환	CVS	이산 허버트, Hifigan, WAV2VEC2
연설 번역	Fisher Callhome (스페인어), IWSLT22 (LowResource)	WAV2VEC2
감정 분류	IEMOCAP, ZAIONEMOTIONDATASET	ECAPA-TDNN, WAV2VEC2, 감정 발효
언어 식별	Voxlingua107, CommonLanguage	ECAPA-TDNN
음성 활동 감지	libriparty	crdnn
사운드 분류	ESC50, urbansound	CNN14, ECAPA-TDNN
자기 감독 학습	CommonVoice, librispeech	WAV2VEC2
메트릭 학습	Real-M, VoiceBank	맹목적인 SNR 추정, PESQ 학습
조정	소심한	CTC, Viterbi, 앞으로
발기	아미	ECAPA-TDNN, X- 벡터, 스펙트럼 클러스터링

텍스트 처리

작업	데이터 세트	기술/모델
언어 모델링	CommonVoice, librispeech	N- 그램, rnnlm, 변압기
응답 생성	Multiwoz	GPT2, llama2
Grapheme-to-Phoneme	librispeech	RNN, 변압기, 커리큘럼 학습, 호모 그래프 손실

? EEG 처리

작업	데이터 세트	기술/모델
모터 이미지	BNCI2014001, BNCI2014004, BNCI2015001, LEE2019_MI, ZHOU201	EEGNET, SHENDOWCONVNET, EEGCONFORMER
P300	BNCI2014009, EPFLP300, BI2015A,	EEGNET
SSVEP	LEE2019_SSVEP	EEGNET

? 추가 기능

SpeechBrain에는 대화 AI 기술의 개발을 향상시키는 다양한 기본 기능이 포함됩니다. 몇 가지 예는 다음과 같습니다.

훈련 오케스트레이션 : Brain Class는 데이터를 통한 교육 및 평가 루프를 관리하기위한 완전히 사용자 정의 가능한 도구 역할을합니다. 프로세스의 모든 부분을 무시할 수있는 유연성을 제공하면서 교육 루프를 단순화합니다.
하이퍼 파라미터 관리 : YAML 기반과 파라미터 파일은 개별 번호 (예 : 학습 속도)에서 완전한 객체 (예 : 사용자 정의 모델)에 이르기까지 모든 초반 미터를 지정합니다. 이 우아한 솔루션은 훈련 스크립트를 크게 단순화합니다.
동적 데이터 로더 : 유연하고 효율적인 데이터 읽기를 가능하게합니다.
GPU 교육 : 분산 교육을 포함한 단일 및 멀티 GPU 교육을 지원합니다.
동적 배치 : 현지 동적 배치는 가변 길이 신호의 효율적인 처리를 향상시킵니다.
혼합 공정 훈련 : 혼합 정제 기술을 통해 훈련을 가속화합니다.
효율적인 데이터 읽기 : WebDataset을 통해 공유 네트워크 파일 시스템 (NFS)에서 대규모 데이터 세트를 효율적으로 읽습니다.
포옹 얼굴 통합 : WAV2VEC2 및 Hubert와 같은 인기있는 모델을위한 포옹 페이스와 완벽하게 인터페이스.
오리온 통합 : 하이퍼 파라미터 튜닝을위한 오리온과의 인터페이스.
음성 증강 기술 : 종, 소음, 잔향 등이 포함됩니다.
데이터 준비 스크립트 : 지원되는 데이터 세트에 대한 데이터 준비를위한 스크립트가 포함되어 있습니다.

SpeechBrain은 향후 점점 더 많은 기술을 지원하려는 노력으로 빠르게 발전하고 있습니다.

성능

SpeechBrain은 경쟁력 있거나 최첨단 성과를 달성하는 기술을 포함하여 다양한 기술을 통합합니다.
다양한 작업, 데이터 세트 및 기술에서 달성 된 성능에 대한 포괄적 인 개요를 보려면 여기를 방문하십시오.

특허

SpeechBrain은 인기있는 BSD와 같은 라이센스 인 Apache 라이센스 버전 2.0에 따라 릴리스됩니다.
라이센스 헤더를 유지하는 조건으로 무료 및 상업적 목적으로 SpeechBrain을 자유롭게 재분배 할 수 있습니다. GPL과 달리 Apache 라이센스는 바이러스 성이 아니므로 소스 코드에 수정을 해제 할 의무가 없습니다.

? 미래 계획

우리는 다음과 같은 우선 순위에 중점을 둔 미래에 대한 야심 찬 계획을 가지고 있습니다.

스케일 업 : 우리는 광범위한 데이터 세트에서 대규모 모델을 훈련하기위한 포괄적 인 레시피 및 기술을 제공하는 것을 목표로합니다.
스케일 다운 : 스케일링은 전례없는 성능을 제공하지만 제작 시나리오에서 대형 모델을 배포 해야하는 문제를 인식합니다. 우리는 실시간, 스트림 가능 및 소규모 발자국 대화 AI에 중점을두고 있습니다.
멀티 모달 대형 언어 모델 : 우리는 단일 기초 모델이 광범위한 텍스트, 음성 및 오디오 작업을 처리 할 수있는 미래를 구상합니다. 우리의 핵심 팀은 고급 멀티 모달 LLM의 교육을 가능하게하는 데 중점을두고 있습니다.

? 기여

SpeechBrain은 수많은 국제 협력자들을 지원하는 핵심 팀이 이끄는 커뮤니티 중심 프로젝트입니다.
우리는 지역 사회의 기여와 아이디어를 환영합니다. 자세한 내용은 여기를 확인하십시오.

스폰서

SpeechBrain은 학문적으로 주도 된 프로젝트이며 기고자의 열정과 열정에 의존합니다.
우리는 대기업의 자원에 의존 할 수 없으므로 핵심 팀과의 기부 또는 협력을 포함하여 어떤 형태의 지원에 감사드립니다.
SpeechBrain을 후원하는 데 관심이 있으시면 [email protected]으로 문의하십시오.
현재 스폰서를 포함하여 모든 스폰서에게 진심으로 감사드립니다.

SpeechBrain 인용

연구 또는 비즈니스에서 SpeechBrain을 사용하는 경우 다음 Bibtex 항목을 사용하여 인용하십시오.

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}