ดาวน์โหลด speechbrain - Source Source speechbrain Download

speechbrain

โค้ดแหล่งที่มา AI

v1.0.2

ดาวน์โหลด

กรุณาช่วยโครงการชุมชนของเรา เป็นดาราบน GitHub!

ข่าวที่น่าตื่นเต้น (มกราคม, 2024): ค้นพบสิ่งใหม่ใน Beechbrain 1.0 ที่นี่!

สิ่งที่ Beechbrain เสนอ

Speechbrain เป็นชุดเครื่องมือ Pytorch โอเพนซอร์ซ ที่เร่งการพัฒนา AI การสนทนา เช่นเทคโนโลยีที่อยู่เบื้องหลัง ผู้ช่วยพูด , แชทบอท และ แบบจำลองภาษาขนาดใหญ่
มันถูกสร้างขึ้นมาเพื่อการสร้างเทคโนโลยีขั้นสูงที่รวดเร็วและง่ายดายสำหรับการประมวลผล คำพูด และ ข้อความ

วิสัยทัศน์

ด้วยการเพิ่มขึ้นของการเรียนรู้อย่างลึกซึ้งโดเมนที่ห่างไกลเช่นการประมวลผลคำพูดและ NLP อยู่ใกล้มาก เครือข่ายประสาทที่ออกแบบมาอย่างดีและชุดข้อมูลขนาดใหญ่เป็นสิ่งที่คุณต้องการ
เราคิดว่าตอนนี้ถึงเวลาแล้วสำหรับ ชุดเครื่องมือแบบองค์รวม ที่เลียนแบบสมองมนุษย์ร่วมกันสนับสนุนเทคโนโลยีที่หลากหลายสำหรับระบบ AI การสนทนาที่ซับซ้อน
การรู้จำเสียงพูด การรับรู้ของผู้พูด การเพิ่มประสิทธิภาพการพูด การแยกคำพูด การสร้างแบบจำลองภาษา การสนทนา และอื่น ๆ
สอดคล้องกับเป้าหมายระยะยาวของเราในการสนทนากับมนุษย์ตามธรรมชาติรวมถึงบุคคลที่ไม่ใช่คำพูดเราเพิ่งเพิ่มการสนับสนุนสำหรับ EEG Modality

สูตรการฝึกอบรม

เราแบ่งปันสูตรการฝึกอบรมการแข่งขันมากกว่า 200 สูตรในชุดข้อมูลมากกว่า 40 ชุดที่สนับสนุนงานการพูดและการประมวลผลข้อความ 20 ชุด (ดูด้านล่าง)
เราสนับสนุนทั้งการฝึกอบรมตั้งแต่ต้นและแบบจำลองการปรับแต่งอย่างละเอียดเช่น Whisper, WAV2VEC2, WAVLM, Hubert, GPT2, Llama2 และอื่น ๆ รุ่นบน HuggingFace สามารถเสียบได้ง่ายและปรับแต่งได้อย่างง่ายดาย
สำหรับงานใด ๆ คุณฝึกอบรมแบบจำลองโดยใช้คำสั่งเหล่านี้:

 python train . py hparams / train . yaml

Hyperparameters ถูกห่อหุ้มในไฟล์ YAML ในขณะที่กระบวนการฝึกอบรมได้รับการจัดเตรียมผ่านสคริปต์ Python
เรารักษาโครงสร้างรหัสที่สอดคล้องกันในงานที่แตกต่างกัน
เพื่อความสามารถในการจำลองแบบที่ดีขึ้นบันทึกการฝึกอบรมและจุดตรวจสอบจะถูกโฮสต์บน Dropbox

แบบจำลองและการอนุมาน

เข้าถึงโมเดลที่ผ่านการฝึกอบรมมากกว่า 100 รุ่นที่โฮสต์บน HuggingFace
แต่ละรุ่นมาพร้อมกับอินเทอร์เฟซที่ใช้งานง่ายสำหรับการอนุมานอย่างราบรื่น ตัวอย่างเช่นการถอดความคำพูดโดยใช้แบบจำลองที่ผ่านการฝึกฝนต้องใช้รหัสเพียงสามบรรทัด:

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

เอกสาร

เราอุทิศตนอย่างลึกซึ้งในการส่งเสริมการมีส่วนร่วมและการศึกษา
เราได้เขียนบทเรียนมากกว่า 30 บทเรียนที่ไม่เพียง แต่อธิบายว่า BeechBrain ทำงานอย่างไร แต่ยังช่วยให้ผู้ใช้คุ้นเคยกับ AI การสนทนา
ทุกคลาสหรือฟังก์ชั่นมีคำอธิบายและตัวอย่างที่ชัดเจนที่คุณสามารถเรียกใช้ได้ ตรวจสอบเอกสารสำหรับรายละเอียดเพิ่มเติม

ใช้เคส

การเร่งความเร็วการวิจัย : เร่งการวิจัยทางวิชาการและอุตสาหกรรม คุณสามารถพัฒนาและรวมโมเดลใหม่ได้อย่างง่ายดายเปรียบเทียบประสิทธิภาพของพวกเขากับเส้นเขตแดนของเรา
⚡ การสร้างต้นแบบอย่างรวดเร็ว : เหมาะสำหรับการสร้างต้นแบบอย่างรวดเร็วในโครงการที่มีความอ่อนไหวต่อเวลา
- เครื่องมือการศึกษา : ความเรียบง่ายของ Speechbrain ทำให้เป็นทรัพยากรทางการศึกษาที่มีค่า มันถูกใช้โดยสถาบันเช่น MILA, มหาวิทยาลัยคอนคอร์เดีย, มหาวิทยาลัยอาวิญงและอื่น ๆ อีกมากมายสำหรับการฝึกอบรมนักศึกษา

เริ่มต้นอย่างรวดเร็ว

ในการเริ่มต้นด้วยคำพูดให้ทำตามขั้นตอนง่ายๆเหล่านี้:

การติดตั้ง

ติดตั้งผ่าน PYPI

ติดตั้ง beechbrain โดยใช้ PYPI:
```
pip install speechbrain
```
เข้าถึงคำพูดในรหัส Python ของคุณ:
```
 import speechbrain as sb
```

ติดตั้งจาก GitHub

การติดตั้งนี้แนะนำสำหรับผู้ใช้ที่ต้องการทำการทดลองและปรับแต่งชุดเครื่องมือตามความต้องการของพวกเขา

โคลนพื้นที่เก็บข้อมูล GitHub และติดตั้งข้อกำหนด:

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

เข้าถึงคำพูดในรหัส Python ของคุณ:
```
 import speechbrain as sb
```

การดัดแปลงใด ๆ ที่ทำกับแพ็คเกจ speechbrain จะสะท้อนให้เห็นโดยอัตโนมัติด้วยธง --editable ได้

✔ทดสอบการติดตั้ง

ตรวจสอบให้แน่ใจว่าการติดตั้งของคุณถูกต้องโดยเรียกใช้คำสั่งต่อไปนี้:

pytest tests
pytest --doctest-modules speechbrain

? ‍♂ เรียกใช้การทดลอง

ใน Beechbrain คุณสามารถฝึกอบรมแบบจำลองสำหรับงานใด ๆ โดยใช้ขั้นตอนต่อไปนี้:

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

ผลลัพธ์จะถูกบันทึกไว้ใน output_folder ที่ระบุในไฟล์ YAML

การเรียนรู้คำพูด

เว็บไซต์: สำรวจข้อมูลทั่วไปในเว็บไซต์อย่างเป็นทางการ
บทเรียน: เริ่มต้นด้วยบทเรียนพื้นฐานที่ครอบคลุมฟังก์ชันพื้นฐาน ค้นหาบทช่วยสอนขั้นสูงและหัวข้อในหมวดหมู่สมุดบันทึกการสอนในเอกสารคำพูด
เอกสาร: ข้อมูลรายละเอียดเกี่ยวกับ API คำพูดแนวทางการบริจาคและรหัสมีอยู่ในเอกสาร

- เทคโนโลยีที่รองรับ

Speechbrain เป็นกรอบการทำงานที่หลากหลายที่ออกแบบมาสำหรับการใช้เทคโนโลยีที่หลากหลายภายในสาขาการสนทนา AI
มันเก่งไม่เพียง แต่ในการใช้งานแต่ละงานเท่านั้น แต่ยังรวมถึงการรวมเทคโนโลยีต่าง ๆ เข้ากับท่อที่ซับซ้อน

? ️การประมวลผลคำพูด/เสียง

งาน	ชุดข้อมูล	เทคโนโลยี/รุ่น
การรู้จำเสียงพูด	aishell-1, Commonvoice, dvoice, ksponspeech, librispeech, สื่อ, rescuespeech, สวิตช์บอร์ด, Timit, Tedlium2, VoiceBank	CTC, ทรานสดิวเซอร์, หม้อแปลง, SEQ2SEQ, เทคนิคการค้นหา beamsearch สำหรับ CTC, SEQ2SEQ, ทรานสดิวเซอร์), การช่วยเหลือ, conformer, BranchFormer, HyperConformer, Kaldi2-FST
การจดจำลำโพง	voxceleb	ecapa-tdnn, resnet, xvectors, plda, คะแนนปกติ
การแยกคำพูด	wsj0mix, librimix, wham!, whamr!, aishell1mix, binauralwsj0mix	Sepformer, Resepformer, Skim, Dualpath RNN, Convtasnet
การเพิ่มประสิทธิภาพการพูด	DNS, VoiceBank	Sepformer, Metricgan, Metricgan-U, Segan, การปิดบังสเปกตรัม, การปิดบังเวลา
การตีความได้	ESC50	การฟังที่สามารถฟังได้สำหรับตัวแยกประเภทเสียง (L-MAC), การเรียนรู้การตีความ (L2I), การแยกตัวประกอบเมทริกซ์ที่ไม่ใช่เชิงลบ (NMF), PIQ
การสร้างคำพูด	นักได้ยิน	การแพร่กระจายแฝง
ข้อความเป็นคำพูด	ljspeech, libritts	tacotron2, zero-shot multi-speaker tacotron2, fastspeech2
การร้อง	ljspeech, libritts	Hifigan, diffwave
ความเข้าใจภาษาพูด	สื่อ, slurp, คำสั่งการพูดที่คล่องแคล่ว, ตัวจับเวลาและเช่น	Direct Slu, Decoupled SLU, Multistage SLU
การแปลคำพูดเป็นคำพูด	CVSS	Hubert, Hifigan, WAV2VEC2
การแปลคำพูด	Fisher Callhome (สเปน), IWSLT22 (Lowresource)	WAV2VEC2
การจำแนกอารมณ์	iemocap, zaionemotiondataset	ECAPA-TDNN, WAV2VEC2, Emotion Diarization
การระบุภาษา	voxlingua107, Commonlanguage	ecapa-tdnn
การตรวจจับกิจกรรมเสียง	Libriparty	crdnn
การจำแนกเสียง	ESC50, urbansound	CNN14, ECAPA-TDNN
การเรียนรู้ด้วยตนเอง	Commonvoice, Librispeech	WAV2VEC2
การเรียนรู้เมตริก	Real-M, VoiceBank	การประเมิน SNR แบบตาบอดการเรียนรู้ PESQ
การจัดตำแหน่ง	เวลา	CTC, Viterbi ไปข้างหน้า
การทำให้ดีขึ้น	Ami	ECAPA-TDNN, X-Vectors, การจัดกลุ่มสเปกตรัม

การประมวลผลข้อความ

งาน	ชุดข้อมูล	เทคโนโลยี/รุ่น
การสร้างแบบจำลองภาษา	Commonvoice, Librispeech	n-grams, rnnlm, transformerlm
การสร้างการตอบสนอง	มัลติโวซ	gpt2, llama2
กราฟ	librispeech	RNN, หม้อแปลง, การเรียนรู้หลักสูตร, การสูญเสีย homograph

- การประมวลผล EEG

งาน	ชุดข้อมูล	เทคโนโลยี/รุ่น
ภาพมอเตอร์	BNCI2014001, BNCI2014004, BNCI2015001, Lee2019_MI, Zhou201	EEGNET, ตื้นเขิน, eegConformer
P300	BNCI2014009, EPFLP300, BI2015A,	eegnet
SSVEP	Lee2019_SSVEP	eegnet

- คุณสมบัติเพิ่มเติม

Beechbrain รวมถึงฟังก์ชันการทำงานดั้งเดิมที่เพิ่มการพัฒนาเทคโนโลยี AI สนทนา นี่คือตัวอย่างบางส่วน:

การฝึกอบรมออร์เคสตร้า: ระดับ Brain ทำหน้าที่เป็นเครื่องมือที่ปรับแต่งได้อย่างสมบูรณ์สำหรับการจัดการการฝึกอบรมและการประเมินลูปมากกว่าข้อมูล มันทำให้ลูปการฝึกอบรมง่ายขึ้นในขณะที่ให้ความยืดหยุ่นในการแทนที่ส่วนใดส่วนหนึ่งของกระบวนการ
การจัดการ HyperParameter: ไฟล์ HyperParameter ที่ใช้ YAML ระบุ hyperparameters ทั้งหมดจากแต่ละหมายเลข (เช่นอัตราการเรียนรู้) ไปยังวัตถุที่สมบูรณ์ (เช่นโมเดลที่กำหนดเอง) โซลูชันที่สง่างามนี้ทำให้สคริปต์การฝึกอบรมง่ายขึ้นอย่างมาก
Dynamic Dataloader: เปิดใช้งานการอ่านข้อมูลที่ยืดหยุ่นและมีประสิทธิภาพ
การฝึกอบรม GPU: สนับสนุนการฝึกอบรมแบบเดี่ยวและหลาย GPU รวมถึงการฝึกอบรมแบบกระจาย
การแบทช์แบบไดนามิก: การแบทช์แบบไดนามิกแบบออนเดอะ-ฟี่ช่วยเพิ่มการประมวลผลที่มีประสิทธิภาพของสัญญาณความยาวตัวแปร
การฝึกอบรมแบบผสมผสาน: เร่งการฝึกอบรมผ่านเทคนิคการผสมผสานแบบผสม
การอ่านข้อมูลที่มีประสิทธิภาพ: อ่านชุดข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพจากระบบไฟล์เครือข่ายที่ใช้ร่วมกัน (NFS) ผ่าน WebDataset
Hugging Face Integration: อินเทอร์เฟซอย่างราบรื่นกับ HuggingFace สำหรับรุ่นยอดนิยมเช่น WAV2VEC2 และ Hubert
Orion Integration: อินเทอร์เฟซกับ Orion สำหรับการปรับจูนไฮเปอร์พารามิเตอร์
เทคนิคการเพิ่มคำพูด: รวมถึงสเปค, เสียง, เสียงก้องและอื่น ๆ
สคริปต์การเตรียมข้อมูล: รวมสคริปต์สำหรับการเตรียมข้อมูลสำหรับชุดข้อมูลที่รองรับ

Speechbrain กำลังพัฒนาอย่างรวดเร็วด้วยความพยายามอย่างต่อเนื่องเพื่อสนับสนุนเทคโนโลยีที่เพิ่มขึ้นในอนาคต

ผลงาน

Beechbrain ผสมผสานเทคโนโลยีที่หลากหลายรวมถึงเทคโนโลยีที่ประสบความสำเร็จในการแข่งขันหรือการแสดงที่ล้ำสมัย
สำหรับภาพรวมที่ครอบคลุมของประสิทธิภาพที่ได้รับจากงานชุดข้อมูลและเทคโนโลยีที่แตกต่างกันกรุณาเยี่ยมชมที่นี่

ใบอนุญาต

SpeechBrain เปิดตัวภายใต้ใบอนุญาต Apache เวอร์ชัน 2.0 ซึ่งเป็นใบอนุญาต BSD ที่ได้รับความนิยม
คุณมีอิสระที่จะแจกจ่ายคำพูดเพื่อวัตถุประสงค์ทั้งฟรีและเชิงพาณิชย์โดยมีเงื่อนไขในการรักษาส่วนหัวใบอนุญาต ซึ่งแตกต่างจาก GPL ใบอนุญาต Apache ไม่ได้เป็นไวรัสซึ่งหมายความว่าคุณไม่จำเป็นต้องปล่อยการดัดแปลงซอร์สโค้ด

? แผนการในอนาคต

เรามีแผนการที่ทะเยอทะยานสำหรับอนาคตโดยมุ่งเน้นไปที่ลำดับความสำคัญต่อไปนี้:

Scale Up: เรามุ่งมั่นที่จะจัดหาสูตรและเทคโนโลยีที่ครอบคลุมสำหรับการฝึกอบรมแบบจำลองขนาดใหญ่ในชุดข้อมูลที่กว้างขวาง
Scale Down: ในขณะที่การปรับขนาดให้ประสิทธิภาพที่ไม่เคยเกิดขึ้นมาก่อนเราตระหนักถึงความท้าทายของการปรับใช้โมเดลขนาดใหญ่ในสถานการณ์การผลิต เรามุ่งเน้นไปที่ AI การสนทนาแบบเรียลไทม์สตรีมและการสนทนาขนาดเล็ก
แบบจำลองภาษาขนาดใหญ่หลายรูปแบบ : เราจินตนาการถึงอนาคตที่โมเดลรากฐานเดียวสามารถจัดการกับข้อความการพูดและเสียงที่หลากหลาย ทีมหลักของเรามุ่งเน้นไปที่การเปิดใช้งานการฝึกอบรม LLMs หลายรูปแบบขั้นสูง

- การบริจาค

Speechbrain เป็นโครงการที่ขับเคลื่อนด้วยชุมชนนำโดยทีมหลักที่ได้รับการสนับสนุนจากผู้ทำงานร่วมกันระหว่างประเทศจำนวนมาก
เรายินดีต้อนรับการมีส่วนร่วมและแนวคิดจากชุมชน สำหรับข้อมูลเพิ่มเติมตรวจสอบที่นี่

ผู้สนับสนุน

Speechbrain เป็นโครงการที่ขับเคลื่อนด้วยวิชาการและขึ้นอยู่กับความหลงใหลและความกระตือรือร้นของผู้มีส่วนร่วม
เนื่องจากเราไม่สามารถพึ่งพาทรัพยากรของ บริษัท ขนาดใหญ่ได้เราขอขอบคุณอย่างมากในรูปแบบของการสนับสนุนรวมถึงการบริจาคหรือการทำงานร่วมกันกับทีมหลัก
หากคุณสนใจที่จะเป็นผู้สนับสนุนคำพูดโปรดติดต่อเราที่ [email protected]
ขอขอบคุณผู้สนับสนุนทุกคนของเรารวมถึงผู้สนับสนุนปัจจุบัน:

อ้างถึงคำพูด

หากคุณใช้คำพูดในการวิจัยหรือธุรกิจของคุณโปรดอ้างอิงโดยใช้รายการ bibtex ต่อไปนี้:

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน v1.0.2
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2025-09-07
ขนาด 25.41MB
มาจาก Github

แอปที่เกี่ยวข้อง

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
ML stack

โค้ดแหล่งที่มา AI

1.0.0
awesome free chatgpt

โค้ดแหล่งที่มา AI

1.0.0
pywin_contextmenu

โค้ดแหล่งที่มา AI

Version update
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด