| Tutorial | Situs web | Dokumentasi | ? Berkontribusi | ? Huggingface |
Tolong, bantu proyek komunitas kami. Bintang di GitHub!
Berita Menyenangkan (Januari, 2024): Temukan apa yang baru di Pidato 1.0 di sini!
SpeechBrain adalah toolkit Pytorch open-source yang mempercepat pengembangan AI percakapan , yaitu, teknologi di balik asisten pidato , chatbots , dan model bahasa besar .
Ini dibuat untuk penciptaan teknologi canggih yang cepat dan mudah untuk pemrosesan bicara dan teks .
Dengan munculnya pembelajaran yang mendalam, domain yang dulu jauh seperti pemrosesan bicara dan NLP sekarang sangat dekat. Jaringan saraf yang dirancang dengan baik dan kumpulan data yang besar adalah semua yang Anda butuhkan.
Kami pikir sekarang saatnya untuk toolkit holistik yang, meniru otak manusia, bersama -sama mendukung beragam teknologi untuk sistem AI percakapan yang kompleks.
Ini mencakup pengakuan ucapan , pengakuan pembicara , peningkatan bicara , pemisahan bicara , pemodelan bahasa , dialog , dan seterusnya.
Sejalan dengan tujuan jangka panjang kami dari percakapan manusia-mesin alami, termasuk untuk individu non-verbal, kami baru-baru ini menambahkan dukungan untuk modalitas EEG.
Kami berbagi lebih dari 200 resep pelatihan kompetitif pada lebih dari 40 dataset yang mendukung 20 tugas pemrosesan pidato dan teks (lihat di bawah).
Kami mendukung baik pelatihan dari awal dan menyempurnakan model pretrained seperti Whisper, WAV2VEC2, WAVLM, Hubert, GPT2, LLAMA2, dan seterusnya. Model-model di Huggingface dapat dengan mudah dicolokkan dan disesuaikan.
Untuk tugas apa pun, Anda melatih model menggunakan perintah ini:
python train . py hparams / train . yamlHyperparameters dienkapsulasi dalam file YAML, sedangkan proses pelatihan diatur melalui skrip Python.
Kami mempertahankan struktur kode yang konsisten di berbagai tugas.
Untuk replikasi yang lebih baik, log pelatihan dan pos pemeriksaan di -host di Dropbox.
from speechbrain . inference import EncoderDecoderASR
asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )Akselerasi Penelitian : Mempercepat Penelitian Akademik dan Industri. Anda dapat mengembangkan dan mengintegrasikan model baru dengan mudah, membandingkan kinerja mereka dengan baseline kami.
⚡️ Prototyping Rapid : Ideal untuk prototipe cepat dalam proyek yang sensitif terhadap waktu.
? Alat Pendidikan : Kesederhanaan SpeechBrain menjadikannya sumber pendidikan yang berharga. Ini digunakan oleh lembaga -lembaga seperti Mila, Universitas Concordia, Universitas Avignon, dan banyak lainnya untuk pelatihan siswa.
Untuk memulai dengan PidatoBrain, ikuti langkah -langkah sederhana ini:
Instal SpeechBrain menggunakan PYPI:
pip install speechbrainAccess Speechbrain dalam kode Python Anda:
import speechbrain as sbInstalasi ini direkomendasikan untuk pengguna yang ingin melakukan eksperimen dan menyesuaikan toolkit sesuai dengan kebutuhan mereka.
Klon Repositori GitHub dan instal persyaratan:
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .Access Speechbrain dalam kode Python Anda:
import speechbrain as sb Setiap modifikasi yang dibuat pada paket speechbrain akan secara otomatis tercermin, berkat bendera --editable .
Pastikan instalasi Anda benar dengan menjalankan perintah berikut:
pytest tests
pytest --doctest-modules speechbrainDi SpeechBrain, Anda dapat melatih model untuk tugas apa pun menggunakan langkah -langkah berikut:
cd recipes / < dataset > / < task > /
python experiment . py params . yaml Hasilnya akan disimpan di output_folder yang ditentukan dalam file YAML.
Situs web: Jelajahi informasi umum di situs web resmi.
Tutorial: Mulailah dengan tutorial dasar yang mencakup fungsi dasar. Temukan tutorial dan topik canggih dalam kategori notebook tutorial dalam dokumentasi pidato.
Dokumentasi: Informasi terperinci tentang API Pidato, Pedoman Kontribusi, dan Kode tersedia dalam dokumentasi.
| Tugas | Kumpulan data | Teknologi/Model |
|---|---|---|
| Pengakuan ucapan | Aishell-1, CommonVoice, Dvoice, Ksponspeech, Librispeech, Media, Rescuespeech, Switchboard, Timit, Tedlium2, VoiceBank | CTC, Transduser, Transformers, SEQ2SEQ, Teknik BeamSearch untuk CTC, SEQ2SEQ, Transducers), Rescoring, Conformer, BranchFormer, HyperConformer, Kaldi2-FST |
| Pengakuan pembicara | Voxceleb | Ecapa-tdnn, resnet, xvectors, PLDA, skor normalisasi |
| Pemisahan pidato | Wsj0mix, librimix, wham!, Whamr!, Aishell1mix, binauralwsj0mix | Sepformer, resformer, skim, dualpath rnn, convtasnet |
| Peningkatan bicara | DNS, VoiceBank | Sepformer, Metricgan, Metricgan-U, Segan, Spectral Masking, Time Masking |
| Interpretabilitas | ESC50 | Peta yang dapat didengar untuk pengklasifikasi audio (L-MAC), belajar-ke-interpretasi (L2I), faktorisasi matriks non-negatif (NMF), PIQ |
| Generasi Pidato | Audiomnist | Difusi, difusi laten |
| Teks-ke-speech | LJSPEECH, Liblitts | TACOTRON2, Zero-Shot Multi-Speaker Tacotron2, FastSpeech2 |
| VOCODING | LJSPEECH, Liblitts | Hifigan, diffwave |
| Pemahaman bahasa lisan | Media, Slurp, Perintah Pidato yang Lancar, Penghitung Waktu dan Sejenam | SLU Langsung, SLU yang dipisahkan, SLU multistage |
| Terjemahan pidato-ke-ucapan | CVSS | Diskrit Hubert, Hifigan, WAV2VEC2 |
| Terjemahan ucapan | Fisher Callhome (Spanyol), IWSLT22 (LowResource) | wav2vec2 |
| Klasifikasi Emosi | IEMOCAP, ZaionemotionDataset | Ecapa-tdnn, WAV2VEC2, Diarization Emotion |
| Identifikasi Bahasa | Voxlingua107, CommonLanguage | Ecapa-tdnn |
| Deteksi aktivitas suara | Libriparty | Crdnn |
| Klasifikasi Suara | ESC50, Urbansound | CNN14, Ecapa-tdnn |
| Pembelajaran yang di-swadaya | Commonvoice, Librispeech | wav2vec2 |
| Pembelajaran Metrik | Real-M, VoiceBank | Estimasi SNR buta, Pembelajaran PESQ |
| Penyelarasan | Timit | CTC, Viterbi, Maju Maju |
| Diarisasi | Ami | Ecapa-tdnn, X-vektor, pengelompokan spektral |
| Tugas | Kumpulan data | Teknologi/Model |
|---|---|---|
| Pemodelan Bahasa | Commonvoice, Librispeech | n-gram, rnnlm, transformerlm |
| Generasi respons | Multiwoz | Gpt2, llama2 |
| Grapheme-to-Phoneme | Librispeech | RNN, Transformer, Pembelajaran Kurikulum, Kehilangan Homograf |
| Tugas | Kumpulan data | Teknologi/Model |
|---|---|---|
| Citra motorik | BNCI2014001, BNCI2014004, BNCI2015001, Lee2019_MI, Zhou201 | Eegnet, dangkalconvnet, eegconformer |
| P300 | BNCI2014009, EPFLP300, BI2015A, | Eegnet |
| SSVEP | Lee2019_ssvep | Eegnet |
SpeechBrain mencakup serangkaian fungsionalitas asli yang meningkatkan pengembangan teknologi AI percakapan. Berikut beberapa contoh:
Orkestrasi Pelatihan: Kelas Brain berfungsi sebagai alat yang sepenuhnya dapat disesuaikan untuk mengelola pelatihan dan evaluasi loop melalui data. Ini menyederhanakan loop pelatihan sambil memberikan fleksibilitas untuk mengesampingkan bagian mana pun dari proses.
Manajemen HyperParameter: File hyperparameter berbasis YAML menentukan semua hyperparameters, dari bilangan individu (misalnya, tingkat pembelajaran) untuk melengkapi objek (misalnya, model khusus). Solusi elegan ini secara drastis menyederhanakan skrip pelatihan.
Dynamic Dataloader: Mengaktifkan pembacaan data yang fleksibel dan efisien.
Pelatihan GPU: Mendukung pelatihan tunggal dan multi-GPU, termasuk pelatihan terdistribusi.
Batching dinamis: Batching dinamis on-the-fly meningkatkan pemrosesan sinyal panjang variabel yang efisien.
Pelatihan presisi campuran: mempercepat pelatihan melalui teknik presisi campuran.
Pembacaan data yang efisien: Membaca kumpulan data besar secara efisien dari sistem file jaringan bersama (NFS) melalui WebDataSet.
Integrasi Wajah Memeluk: Antarmuka mulus dengan Huggingface untuk model populer seperti WAV2VEC2 dan Hubert.
Integrasi Orion: Antarmuka dengan Orion untuk penyetelan hiperparameter.
Teknik augmentasi pidato: Termasuk specaugment, kebisingan, gema, dan banyak lagi.
Script Persiapan Data: Termasuk skrip untuk menyiapkan data untuk set data yang didukung.
PidatoBrain berkembang pesat, dengan upaya berkelanjutan untuk mendukung berbagai teknologi di masa depan.
PidatoBrain mengintegrasikan berbagai teknologi, termasuk yang mencapai kinerja kompetitif atau canggih.
Untuk tinjauan komprehensif tentang kinerja yang dicapai di berbagai tugas, dataset, dan teknologi, silakan kunjungi di sini.
Kami memiliki rencana ambisius untuk masa depan, dengan fokus pada prioritas berikut:
Skala UP: Kami bertujuan untuk menyediakan resep dan teknologi komprehensif untuk melatih model besar pada dataset yang luas.
Skala Down: Sambil menskalakan kinerja yang belum pernah terjadi sebelumnya, kami mengenali tantangan menggunakan model besar dalam skenario produksi. Kami fokus pada AI percakapan real-time, dapat dirampingkan, dan cetak kecil.
Model Bahasa Multimodal Besar : Kami membayangkan masa depan di mana model pondasi tunggal dapat menangani berbagai tugas teks, ucapan, dan audio. Tim inti kami fokus pada memungkinkan pelatihan LLM multimodal canggih.
Jika Anda menggunakan PidatoBrain dalam penelitian atau bisnis Anda, silakan kutipnya menggunakan entri Bibtex berikut:
@misc { speechbrainV1 ,
title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
year = { 2024 } ,
eprint = { 2407.00463 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
year = { 2021 } ,
eprint = { 2106.04624 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS } ,
note = { arXiv:2106.04624 }
}