Unduhan speechbrain - Unduh Kode Sumber speechbrain

speechbrain

Kode Sumber AI

v1.0.2

Unduh

Tolong, bantu proyek komunitas kami. Bintang di GitHub!

Berita Menyenangkan (Januari, 2024): Temukan apa yang baru di Pidato 1.0 di sini!

Apa yang ditawarkan PidatoBrain

SpeechBrain adalah toolkit Pytorch open-source yang mempercepat pengembangan AI percakapan , yaitu, teknologi di balik asisten pidato , chatbots , dan model bahasa besar .
Ini dibuat untuk penciptaan teknologi canggih yang cepat dan mudah untuk pemrosesan bicara dan teks .

Penglihatan

Dengan munculnya pembelajaran yang mendalam, domain yang dulu jauh seperti pemrosesan bicara dan NLP sekarang sangat dekat. Jaringan saraf yang dirancang dengan baik dan kumpulan data yang besar adalah semua yang Anda butuhkan.
Kami pikir sekarang saatnya untuk toolkit holistik yang, meniru otak manusia, bersama -sama mendukung beragam teknologi untuk sistem AI percakapan yang kompleks.
Ini mencakup pengakuan ucapan , pengakuan pembicara , peningkatan bicara , pemisahan bicara , pemodelan bahasa , dialog , dan seterusnya.
Sejalan dengan tujuan jangka panjang kami dari percakapan manusia-mesin alami, termasuk untuk individu non-verbal, kami baru-baru ini menambahkan dukungan untuk modalitas EEG.

Resep pelatihan

Kami berbagi lebih dari 200 resep pelatihan kompetitif pada lebih dari 40 dataset yang mendukung 20 tugas pemrosesan pidato dan teks (lihat di bawah).
Kami mendukung baik pelatihan dari awal dan menyempurnakan model pretrained seperti Whisper, WAV2VEC2, WAVLM, Hubert, GPT2, LLAMA2, dan seterusnya. Model-model di Huggingface dapat dengan mudah dicolokkan dan disesuaikan.
Untuk tugas apa pun, Anda melatih model menggunakan perintah ini:

 python train . py hparams / train . yaml

Hyperparameters dienkapsulasi dalam file YAML, sedangkan proses pelatihan diatur melalui skrip Python.
Kami mempertahankan struktur kode yang konsisten di berbagai tugas.
Untuk replikasi yang lebih baik, log pelatihan dan pos pemeriksaan di -host di Dropbox.

Model dan inferensi pretrained

Akses lebih dari 100 model pretrained yang di -host di Huggingface.
Setiap model dilengkapi dengan antarmuka yang ramah pengguna untuk inferensi mulus. Misalnya, menyalin pidato menggunakan model pretrain hanya membutuhkan tiga baris kode:

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

Dokumentasi

Kami sangat berdedikasi untuk mempromosikan inklusivitas dan pendidikan.
Kami telah menulis lebih dari 30 tutorial yang tidak hanya menggambarkan cara kerja SpeechBrain tetapi juga membantu pengguna membiasakan diri dengan AI percakapan.
Setiap kelas atau fungsi memiliki penjelasan dan contoh yang jelas yang dapat Anda jalankan. Lihat dokumentasi untuk lebih jelasnya.

Menggunakan kasus

Akselerasi Penelitian : Mempercepat Penelitian Akademik dan Industri. Anda dapat mengembangkan dan mengintegrasikan model baru dengan mudah, membandingkan kinerja mereka dengan baseline kami.
⚡️ Prototyping Rapid : Ideal untuk prototipe cepat dalam proyek yang sensitif terhadap waktu.
? Alat Pendidikan : Kesederhanaan SpeechBrain menjadikannya sumber pendidikan yang berharga. Ini digunakan oleh lembaga -lembaga seperti Mila, Universitas Concordia, Universitas Avignon, dan banyak lainnya untuk pelatihan siswa.

Awal yang cepat

Untuk memulai dengan PidatoBrain, ikuti langkah -langkah sederhana ini:

Instalasi

Instal melalui PYPI

Instal SpeechBrain menggunakan PYPI:
```
pip install speechbrain
```
Access Speechbrain dalam kode Python Anda:
```
 import speechbrain as sb
```

Instal dari GitHub

Instalasi ini direkomendasikan untuk pengguna yang ingin melakukan eksperimen dan menyesuaikan toolkit sesuai dengan kebutuhan mereka.

Klon Repositori GitHub dan instal persyaratan:

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

Access Speechbrain dalam kode Python Anda:
```
 import speechbrain as sb
```

Setiap modifikasi yang dibuat pada paket speechbrain akan secara otomatis tercermin, berkat bendera --editable .

✔️ Instalasi Uji

Pastikan instalasi Anda benar dengan menjalankan perintah berikut:

pytest tests
pytest --doctest-modules speechbrain

? ‍♂️ menjalankan percobaan

Di SpeechBrain, Anda dapat melatih model untuk tugas apa pun menggunakan langkah -langkah berikut:

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

Hasilnya akan disimpan di output_folder yang ditentukan dalam file YAML.

Mempelajari PidatoBrain

Situs web: Jelajahi informasi umum di situs web resmi.
Tutorial: Mulailah dengan tutorial dasar yang mencakup fungsi dasar. Temukan tutorial dan topik canggih dalam kategori notebook tutorial dalam dokumentasi pidato.
Dokumentasi: Informasi terperinci tentang API Pidato, Pedoman Kontribusi, dan Kode tersedia dalam dokumentasi.

? Teknologi yang didukung

PidatoBrain adalah kerangka kerja serbaguna yang dirancang untuk menerapkan berbagai teknologi dalam bidang AI percakapan.
Ini unggul tidak hanya dalam implementasi tugas individual tetapi juga dalam menggabungkan berbagai teknologi menjadi saluran pipa yang kompleks.

? ️ Pemrosesan pidato/audio

Tugas	Kumpulan data	Teknologi/Model
Pengakuan ucapan	Aishell-1, CommonVoice, Dvoice, Ksponspeech, Librispeech, Media, Rescuespeech, Switchboard, Timit, Tedlium2, VoiceBank	CTC, Transduser, Transformers, SEQ2SEQ, Teknik BeamSearch untuk CTC, SEQ2SEQ, Transducers), Rescoring, Conformer, BranchFormer, HyperConformer, Kaldi2-FST
Pengakuan pembicara	Voxceleb	Ecapa-tdnn, resnet, xvectors, PLDA, skor normalisasi
Pemisahan pidato	Wsj0mix, librimix, wham!, Whamr!, Aishell1mix, binauralwsj0mix	Sepformer, resformer, skim, dualpath rnn, convtasnet
Peningkatan bicara	DNS, VoiceBank	Sepformer, Metricgan, Metricgan-U, Segan, Spectral Masking, Time Masking
Interpretabilitas	ESC50	Peta yang dapat didengar untuk pengklasifikasi audio (L-MAC), belajar-ke-interpretasi (L2I), faktorisasi matriks non-negatif (NMF), PIQ
Generasi Pidato	Audiomnist	Difusi, difusi laten
Teks-ke-speech	LJSPEECH, Liblitts	TACOTRON2, Zero-Shot Multi-Speaker Tacotron2, FastSpeech2
VOCODING	LJSPEECH, Liblitts	Hifigan, diffwave
Pemahaman bahasa lisan	Media, Slurp, Perintah Pidato yang Lancar, Penghitung Waktu dan Sejenam	SLU Langsung, SLU yang dipisahkan, SLU multistage
Terjemahan pidato-ke-ucapan	CVSS	Diskrit Hubert, Hifigan, WAV2VEC2
Terjemahan ucapan	Fisher Callhome (Spanyol), IWSLT22 (LowResource)	wav2vec2
Klasifikasi Emosi	IEMOCAP, ZaionemotionDataset	Ecapa-tdnn, WAV2VEC2, Diarization Emotion
Identifikasi Bahasa	Voxlingua107, CommonLanguage	Ecapa-tdnn
Deteksi aktivitas suara	Libriparty	Crdnn
Klasifikasi Suara	ESC50, Urbansound	CNN14, Ecapa-tdnn
Pembelajaran yang di-swadaya	Commonvoice, Librispeech	wav2vec2
Pembelajaran Metrik	Real-M, VoiceBank	Estimasi SNR buta, Pembelajaran PESQ
Penyelarasan	Timit	CTC, Viterbi, Maju Maju
Diarisasi	Ami	Ecapa-tdnn, X-vektor, pengelompokan spektral

Pemrosesan teks

Tugas	Kumpulan data	Teknologi/Model
Pemodelan Bahasa	Commonvoice, Librispeech	n-gram, rnnlm, transformerlm
Generasi respons	Multiwoz	Gpt2, llama2
Grapheme-to-Phoneme	Librispeech	RNN, Transformer, Pembelajaran Kurikulum, Kehilangan Homograf

? Pemrosesan EEG

Tugas	Kumpulan data	Teknologi/Model
Citra motorik	BNCI2014001, BNCI2014004, BNCI2015001, Lee2019_MI, Zhou201	Eegnet, dangkalconvnet, eegconformer
P300	BNCI2014009, EPFLP300, BI2015A,	Eegnet
SSVEP	Lee2019_ssvep	Eegnet

? Fitur tambahan

SpeechBrain mencakup serangkaian fungsionalitas asli yang meningkatkan pengembangan teknologi AI percakapan. Berikut beberapa contoh:

Orkestrasi Pelatihan: Kelas Brain berfungsi sebagai alat yang sepenuhnya dapat disesuaikan untuk mengelola pelatihan dan evaluasi loop melalui data. Ini menyederhanakan loop pelatihan sambil memberikan fleksibilitas untuk mengesampingkan bagian mana pun dari proses.
Manajemen HyperParameter: File hyperparameter berbasis YAML menentukan semua hyperparameters, dari bilangan individu (misalnya, tingkat pembelajaran) untuk melengkapi objek (misalnya, model khusus). Solusi elegan ini secara drastis menyederhanakan skrip pelatihan.
Dynamic Dataloader: Mengaktifkan pembacaan data yang fleksibel dan efisien.
Pelatihan GPU: Mendukung pelatihan tunggal dan multi-GPU, termasuk pelatihan terdistribusi.
Batching dinamis: Batching dinamis on-the-fly meningkatkan pemrosesan sinyal panjang variabel yang efisien.
Pelatihan presisi campuran: mempercepat pelatihan melalui teknik presisi campuran.
Pembacaan data yang efisien: Membaca kumpulan data besar secara efisien dari sistem file jaringan bersama (NFS) melalui WebDataSet.
Integrasi Wajah Memeluk: Antarmuka mulus dengan Huggingface untuk model populer seperti WAV2VEC2 dan Hubert.
Integrasi Orion: Antarmuka dengan Orion untuk penyetelan hiperparameter.
Teknik augmentasi pidato: Termasuk specaugment, kebisingan, gema, dan banyak lagi.
Script Persiapan Data: Termasuk skrip untuk menyiapkan data untuk set data yang didukung.

PidatoBrain berkembang pesat, dengan upaya berkelanjutan untuk mendukung berbagai teknologi di masa depan.

Pertunjukan

PidatoBrain mengintegrasikan berbagai teknologi, termasuk yang mencapai kinerja kompetitif atau canggih.
Untuk tinjauan komprehensif tentang kinerja yang dicapai di berbagai tugas, dataset, dan teknologi, silakan kunjungi di sini.

Lisensi

SpeechBrain dirilis di bawah lisensi Apache, versi 2.0, lisensi seperti BSD yang populer.
Anda bebas untuk mendistribusikan kembali pidato untuk tujuan gratis dan komersial, dengan kondisi mempertahankan header lisensi. Berbeda dengan GPL, lisensi Apache tidak viral, yang berarti Anda tidak berkewajiban untuk melepaskan modifikasi ke kode sumber.

? Rencana masa depan

Kami memiliki rencana ambisius untuk masa depan, dengan fokus pada prioritas berikut:

Skala UP: Kami bertujuan untuk menyediakan resep dan teknologi komprehensif untuk melatih model besar pada dataset yang luas.
Skala Down: Sambil menskalakan kinerja yang belum pernah terjadi sebelumnya, kami mengenali tantangan menggunakan model besar dalam skenario produksi. Kami fokus pada AI percakapan real-time, dapat dirampingkan, dan cetak kecil.
Model Bahasa Multimodal Besar : Kami membayangkan masa depan di mana model pondasi tunggal dapat menangani berbagai tugas teks, ucapan, dan audio. Tim inti kami fokus pada memungkinkan pelatihan LLM multimodal canggih.

? Berkontribusi

SpeechBrain adalah proyek yang digerakkan oleh masyarakat, yang dipimpin oleh tim inti dengan dukungan dari berbagai kolaborator internasional.
Kami menyambut kontribusi dan ide dari komunitas. Untuk informasi lebih lanjut, periksa di sini.

Sponsor

Pidato adalah proyek yang digerakkan secara akademis dan bergantung pada hasrat dan antusiasme kontributornya.
Karena kami tidak dapat mengandalkan sumber daya perusahaan besar, kami sangat menghargai segala bentuk dukungan, termasuk sumbangan atau kolaborasi dengan tim inti.
Jika Anda tertarik untuk mensponsori SpeechBrain, hubungi kami di pidato di [email protected].
Terima kasih yang tulus kepada semua sponsor kami, termasuk yang saat ini:

Mengutip pidatobrain

Jika Anda menggunakan PidatoBrain dalam penelitian atau bisnis Anda, silakan kutipnya menggunakan entri Bibtex berikut:

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}

Memperluas

Informasi Tambahan

Versi v1.0.2
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-07
ukuran 25.41MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua