| Учебные пособия | Веб -сайт | Документация | ? Вклад | ? Объятие |
Пожалуйста, помогите нашему общественному проекту. Звезда на GitHub!
Захватывающие новости (январь 2024 г.): Узнайте, что нового в SpeechBrain 1.0 здесь!
SpeechBrain-это инструментарий Pytorch с открытым исходным кодом , который ускоряет разговорную разработку ИИ , то есть технологию, лежащие в режиме , чат-боты и крупные языковые модели .
Он создан для быстрого и простого создания передовых технологий для речевой и текстовой обработки.
С ростом глубокого обучения, когда-то настойчивые домены, такие как обработка речи и NLP, теперь очень близки. Хорошо продуманная нейронная сеть и большие наборы данных-все, что вам нужно.
Мы думаем, что сейчас настало время для целостного инструментария , который, имитирующий человеческий мозг, совместно поддерживает различные технологии для сложных разговорных систем ИИ.
Это охватывает признание речи , распознавание спикеров , улучшение речи , разделение речи , языковое моделирование , диалог и за ее пределами.
В соответствии с нашей долгосрочной целью естественного разговора о человеке, в том числе для невербальных людей, мы недавно добавили поддержку модальности ЭЭГ.
Мы разделяем более 200 конкурентных рецептов обучения на более чем 40 наборах данных, поддерживающих 20 задач по обработке речи и текста (см. Ниже).
Мы поддерживаем как тренировку с нуля, так и с тонкой настройкой, таких как Whisper, Wav2VEC2, Wavlm, Hubert, GPT2, Llama2 и за ее пределами. Модели на Huggingface можно легко подключить и настраивать.
Для любой задачи вы тренируете модель, используя эти команды:
python train . py hparams / train . yamlГиперпараметры инкапсулируются в файл YAML, а процесс обучения организуется с помощью сценария Python.
Мы сохранили постоянную структуру кода в разных задачах.
Для лучшей воспроизведения, журналы обучения и контрольно -пропускные пункты размещаются на Dropbox.
from speechbrain . inference import EncoderDecoderASR
asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )Ускорение исследований : ускорение академических и промышленных исследований. Вы можете легко разрабатывать и интегрировать новые модели, сравнивая их производительность с нашими базовыми показателями.
⚡ Быстрое прототипирование : идеально подходит для быстрого прототипирования в чувствительных ко времени проектах.
? Образовательный инструмент : простота Speechbrain делает его ценным образовательным ресурсом. Он используется такими учреждениями, как Мила, Университет Конкордии, Университет Авиньон и многие другие для обучения студентов.
Чтобы начать с SpeechBrain, выполните эти простые шаги:
Установите SpeechBrain с помощью PYPI:
pip install speechbrainДоступ к SpeechBrain в вашем коде Python:
import speechbrain as sbЭта установка рекомендуется для пользователей, которые хотят провести эксперименты и настраивать инструментарий в соответствии с их потребностями.
Клонировать репозиторий GitHub и установить требования:
git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .Доступ к SpeechBrain в вашем коде Python:
import speechbrain as sb Любые модификации, внесенные в пакет speechbrain , будут автоматически отражены благодаря флагу --editable .
Убедитесь, что ваша установка верна, выполнив следующие команды:
pytest tests
pytest --doctest-modules speechbrainВ Speambrain вы можете обучить модель для любой задачи, используя следующие шаги:
cd recipes / < dataset > / < task > /
python experiment . py params . yaml Результаты будут сохранены в output_folder , указанном в файле YAML.
Веб -сайт: Исследуйте общую информацию на официальном сайте.
Учебные пособия: Начните с основных учебных пособий, охватывающих фундаментальные функции. Найдите расширенные учебные пособия и темы в учебной категории ноутбуков в документации Speambrain.
Документация: Подробная информация об API Speechbrain, руководящих принципах вклада и коде доступна в документации.
| Задачи | Наборы данных | Технологии/модели |
|---|---|---|
| Распознавание речи | Aishell-1, Commonvoice, Dvoice, Ksponspeech, Librispeech, Media, Rescuespeech, Switchboard, Timit, Tedlium2, Voicebank | CTC, преобразователи, трансформаторы, seq2seq, методы Beamsearch для CTC, SEQ2SEQ, Transducers), Rescoring, Confermer, Branpalformer, Hyperconformer, Kaldi2-Fst |
| Признание спикера | Voxceleb | Ecapa-tdnn, resnet, xvectors, plda, нормализация оценки |
| Разделение речи | Wsj0mix, librimix, wham!, Whamr!, Aishell1mix, binauralwsj0mix | Sepformer, Repemermer, Skim, Dualpath Rnn, Convtasnet |
| Улучшение речи | DNS, Voicebank | Sepformer, Metricgan, Metricgan-U, Segan, Spectral Masking, Time Masking |
| Интерпретируемость | ESC50 | Прослушиваемые карты для аудио-классификаторов (L-MAC), обучения к интерпретату (L2I), неотрицательная матричная факторизация (NMF), PIQ |
| Речь поколение | Аудиционист | Диффузия, скрытая диффузия |
| Текст в речь | Ljspeech, libritts | Tacotron2, с нулевым выстрелом многопрофильный Tacotron2, Fastspeech2 |
| Вокал | Ljspeech, libritts | Хифиган, Диффваве |
| Понимание разговорного языка | СМИ, Slurp, Flight Speech Commands, Timers и Such | Прямой SLU, отдельный SLU, многоступенчатая SLU |
| Перевод речи в речь | CVSS | Дискретный Hubert, Hifigan, Wav2vec2 |
| Речевой перевод | Фишер Callhome (испанский), IWSLT22 (Lowresource) | wav2vec2 |
| Классификация эмоций | Iemocap, zaionemotiondataset | Ecapa-tdnn, wav2vec2, эмоциональная демоаризация |
| Идентификация языка | Voxlingua107, Commonlanguage | Ecapa-tdnn |
| Обнаружение голосовой активности | Libriparty | Crdnnn |
| Звуковая классификация | ESC50, Urbansound | CNN14, ECAPA-TDNN |
| Самоотверженное обучение | Commonvoice, Librispeech | wav2vec2 |
| Метрическое обучение | Real-m, Voicebank | Слепая SNR-оценка, обучение PESQ |
| Выравнивание | Смутный | CTC, Viterbi, вперед вперед |
| Дневник | Ами | Ecapa-tdnn, x-векторы, спектральная кластеризация |
| Задачи | Наборы данных | Технологии/модели |
|---|---|---|
| Языковое моделирование | Commonvoice, Librispeech | N-граммы, Rnnlm, Transformerlm |
| Генерация ответов | Multiwoz | GPT2, Llama2 |
| Графма-фонем | Librispeech | RNN, трансформатор, обучение учебным программам, потеря гомографии |
| Задачи | Наборы данных | Технологии/модели |
|---|---|---|
| Моторные образы | BNCI2014001, BNCI2014004, BNCI2015001, LEE2019_MI, Zhou201 | Eegnet, shallowconvnet, eegconformer |
| P300 | BNCI2014009, EPFLP300, BI2015A, | Eegnet |
| SSVEP | LEE2019_SSVEP | Eegnet |
Speechbrain включает в себя ряд нативных функциональных возможностей, которые улучшают разработку разговорных технологий ИИ. Вот несколько примеров:
Обучение оркестровки: класс Brain служит полностью настраиваемым инструментом для управления петлями обучения и оценки по данным. Он упрощает тренировочные петли, обеспечивая гибкость для переопределения любой части процесса.
Управление гиперпараметром: гиперпараметрический файл на основе YAML указывает все гиперпараметры, от отдельных чисел (например, скорость обучения) до полных объектов (например, пользовательские модели). Это элегантное решение резко упрощает тренировочный сценарий.
Динамический DataLoader: обеспечивает гибкое и эффективное чтение данных.
Обучение графическим процессорам: поддерживает обучение в одиночном и мульти-GPU, включая распределенное обучение.
Динамическое пакетирование: динамическое пакетирование на лету повышает эффективную обработку сигналов переменной длины.
Обучение смешанного назначения: ускоряет обучение с помощью методов смешанного назначения.
Эффективное чтение данных: эффективно считывает большие наборы данных из общей сетевой файловой системы (NFS) через WebDataset.
Интеграция обнимающего лица: беспрепятственно взаимодействует с Huggingface для популярных моделей, таких как Wav2Vec2 и Hubert.
Интеграция Orion: интерфейсы с Orion для настройки гиперпараметра.
Методы увеличения речи: включает в себя оформление, шум, реверберацию и многое другое.
Сценарии подготовки данных: включает сценарии для подготовки данных для поддерживаемых наборов данных.
Speechbrain быстро развивается, с постоянными усилиями по поддержке растущего спектра технологий в будущем.
SpeechBrain объединяет различные технологии, в том числе те, которые достигают конкурентной или современной работы.
Для полного обзора достигнутой производительности по различным задачам, наборам данных и технологиям, пожалуйста, посетите здесь.
У нас есть амбициозные планы на будущее, с акцентом на следующие приоритеты:
Расширение: мы стремимся предоставить комплексные рецепты и технологии для обучения массовых моделей обширным наборам данных.
Расширение: хотя масштабирование обеспечивает беспрецедентную производительность, мы признаем проблемы развертывания крупных моделей в сценариях производства. Мы сосредотачиваемся на разговорном ИИ в реальном времени, потоковом и небольшом отпечатках.
Мультимодальные крупные языковые модели : мы представляем будущее, где одна модель фундамента может справиться с широким спектром текстовых, речевых и аудиозапроводов. Наша основная команда сосредоточена на том, чтобы обеспечить обучение продвинутых мультимодальных LLMS.
Если вы используете SpeechBrain в своих исследованиях или в бизнесе, пожалуйста, укажите его, используя следующую запись Bibtex:
@misc { speechbrainV1 ,
title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
year = { 2024 } ,
eprint = { 2407.00463 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.LG } ,
url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
year = { 2021 } ,
eprint = { 2106.04624 } ,
archivePrefix = { arXiv } ,
primaryClass = { eess.AS } ,
note = { arXiv:2106.04624 }
}