Скачать speechbrain - Скачать исходный код speechbrain

speechbrain

AI Исходный код

v1.0.2

Скачать

Пожалуйста, помогите нашему общественному проекту. Звезда на GitHub!

Захватывающие новости (январь 2024 г.): Узнайте, что нового в SpeechBrain 1.0 здесь!

Что предлагает речи

SpeechBrain-это инструментарий Pytorch с открытым исходным кодом , который ускоряет разговорную разработку ИИ , то есть технологию, лежащие в режиме , чат-боты и крупные языковые модели .
Он создан для быстрого и простого создания передовых технологий для речевой и текстовой обработки.

Зрение

С ростом глубокого обучения, когда-то настойчивые домены, такие как обработка речи и NLP, теперь очень близки. Хорошо продуманная нейронная сеть и большие наборы данных-все, что вам нужно.
Мы думаем, что сейчас настало время для целостного инструментария , который, имитирующий человеческий мозг, совместно поддерживает различные технологии для сложных разговорных систем ИИ.
Это охватывает признание речи , распознавание спикеров , улучшение речи , разделение речи , языковое моделирование , диалог и за ее пределами.
В соответствии с нашей долгосрочной целью естественного разговора о человеке, в том числе для невербальных людей, мы недавно добавили поддержку модальности ЭЭГ.

Учебные рецепты

Мы разделяем более 200 конкурентных рецептов обучения на более чем 40 наборах данных, поддерживающих 20 задач по обработке речи и текста (см. Ниже).
Мы поддерживаем как тренировку с нуля, так и с тонкой настройкой, таких как Whisper, Wav2VEC2, Wavlm, Hubert, GPT2, Llama2 и за ее пределами. Модели на Huggingface можно легко подключить и настраивать.
Для любой задачи вы тренируете модель, используя эти команды:

 python train . py hparams / train . yaml

Гиперпараметры инкапсулируются в файл YAML, а процесс обучения организуется с помощью сценария Python.
Мы сохранили постоянную структуру кода в разных задачах.
Для лучшей воспроизведения, журналы обучения и контрольно -пропускные пункты размещаются на Dropbox.

Предварительно подготовленные модели и вывод

Доступ к более чем 100 предварительно предварительному моделям, размещенным на Huggingface.
Каждая модель поставляется с удобным интерфейсом для бесшовного вывода. Например, транскрибирующая речь с использованием предварительной модели требует всего три строки кода:

 from speechbrain . inference import EncoderDecoderASR

asr_model = EncoderDecoderASR . from_hparams ( source = "speechbrain/asr-conformer-transformerlm-librispeech" , savedir = "pretrained_models/asr-transformer-transformerlm-librispeech" )
asr_model . transcribe_file ( "speechbrain/asr-conformer-transformerlm-librispeech/example.wav" )

Документация

Мы глубоко посвящены продвижению инклюзивности и образования.
Мы создали более 30 учебных пособий, которые не только описывают, как работает SpeechBrain, но и помогает пользователям ознакомиться с разговорным ИИ.
Каждый класс или функция имеет четкие объяснения и примеры, которые вы можете запустить. Проверьте документацию для получения более подробной информации.

Варианты использования

Ускорение исследований : ускорение академических и промышленных исследований. Вы можете легко разрабатывать и интегрировать новые модели, сравнивая их производительность с нашими базовыми показателями.
⚡ Быстрое прототипирование : идеально подходит для быстрого прототипирования в чувствительных ко времени проектах.
? Образовательный инструмент : простота Speechbrain делает его ценным образовательным ресурсом. Он используется такими учреждениями, как Мила, Университет Конкордии, Университет Авиньон и многие другие для обучения студентов.

Быстрый старт

Чтобы начать с SpeechBrain, выполните эти простые шаги:

Установка

Установите через PYPI

Установите SpeechBrain с помощью PYPI:
```
pip install speechbrain
```
Доступ к SpeechBrain в вашем коде Python:
```
 import speechbrain as sb
```

Установите с GitHub

Эта установка рекомендуется для пользователей, которые хотят провести эксперименты и настраивать инструментарий в соответствии с их потребностями.

Клонировать репозиторий GitHub и установить требования:

git clone https://github.com/speechbrain/speechbrain.git
cd speechbrain
pip install -r requirements.txt
pip install --editable .

Доступ к SpeechBrain в вашем коде Python:
```
 import speechbrain as sb
```

Любые модификации, внесенные в пакет speechbrain , будут автоматически отражены благодаря флагу --editable .

✔ Тестовая установка

Убедитесь, что ваша установка верна, выполнив следующие команды:

pytest tests
pytest --doctest-modules speechbrain

? ‍♂️ эксперимент

В Speambrain вы можете обучить модель для любой задачи, используя следующие шаги:

 cd recipes / < dataset > / < task > /
python experiment . py params . yaml

Результаты будут сохранены в output_folder , указанном в файле YAML.

Учебный речь

Веб -сайт: Исследуйте общую информацию на официальном сайте.
Учебные пособия: Начните с основных учебных пособий, охватывающих фундаментальные функции. Найдите расширенные учебные пособия и темы в учебной категории ноутбуков в документации Speambrain.
Документация: Подробная информация об API Speechbrain, руководящих принципах вклада и коде доступна в документации.

? Поддерживаемые технологии

SpeechBrain - это универсальная структура, предназначенная для реализации широкого спектра технологий в области разговорного ИИ.
Он превосходит не только в реализации отдельных задач, но и в объединении различных технологий в сложные трубопроводы.

? ️ речи/обработка аудио

Задачи	Наборы данных	Технологии/модели
Распознавание речи	Aishell-1, Commonvoice, Dvoice, Ksponspeech, Librispeech, Media, Rescuespeech, Switchboard, Timit, Tedlium2, Voicebank	CTC, преобразователи, трансформаторы, seq2seq, методы Beamsearch для CTC, SEQ2SEQ, Transducers), Rescoring, Confermer, Branpalformer, Hyperconformer, Kaldi2-Fst
Признание спикера	Voxceleb	Ecapa-tdnn, resnet, xvectors, plda, нормализация оценки
Разделение речи	Wsj0mix, librimix, wham!, Whamr!, Aishell1mix, binauralwsj0mix	Sepformer, Repemermer, Skim, Dualpath Rnn, Convtasnet
Улучшение речи	DNS, Voicebank	Sepformer, Metricgan, Metricgan-U, Segan, Spectral Masking, Time Masking
Интерпретируемость	ESC50	Прослушиваемые карты для аудио-классификаторов (L-MAC), обучения к интерпретату (L2I), неотрицательная матричная факторизация (NMF), PIQ
Речь поколение	Аудиционист	Диффузия, скрытая диффузия
Текст в речь	Ljspeech, libritts	Tacotron2, с нулевым выстрелом многопрофильный Tacotron2, Fastspeech2
Вокал	Ljspeech, libritts	Хифиган, Диффваве
Понимание разговорного языка	СМИ, Slurp, Flight Speech Commands, Timers и Such	Прямой SLU, отдельный SLU, многоступенчатая SLU
Перевод речи в речь	CVSS	Дискретный Hubert, Hifigan, Wav2vec2
Речевой перевод	Фишер Callhome (испанский), IWSLT22 (Lowresource)	wav2vec2
Классификация эмоций	Iemocap, zaionemotiondataset	Ecapa-tdnn, wav2vec2, эмоциональная демоаризация
Идентификация языка	Voxlingua107, Commonlanguage	Ecapa-tdnn
Обнаружение голосовой активности	Libriparty	Crdnnn
Звуковая классификация	ESC50, Urbansound	CNN14, ECAPA-TDNN
Самоотверженное обучение	Commonvoice, Librispeech	wav2vec2
Метрическое обучение	Real-m, Voicebank	Слепая SNR-оценка, обучение PESQ
Выравнивание	Смутный	CTC, Viterbi, вперед вперед
Дневник	Ами	Ecapa-tdnn, x-векторы, спектральная кластеризация

Текстовая обработка

Задачи	Наборы данных	Технологии/модели
Языковое моделирование	Commonvoice, Librispeech	N-граммы, Rnnlm, Transformerlm
Генерация ответов	Multiwoz	GPT2, Llama2
Графма-фонем	Librispeech	RNN, трансформатор, обучение учебным программам, потеря гомографии

? Обработка ЭЭГ

Задачи	Наборы данных	Технологии/модели
Моторные образы	BNCI2014001, BNCI2014004, BNCI2015001, LEE2019_MI, Zhou201	Eegnet, shallowconvnet, eegconformer
P300	BNCI2014009, EPFLP300, BI2015A,	Eegnet
SSVEP	LEE2019_SSVEP	Eegnet

? Дополнительные функции

Speechbrain включает в себя ряд нативных функциональных возможностей, которые улучшают разработку разговорных технологий ИИ. Вот несколько примеров:

Обучение оркестровки: класс Brain служит полностью настраиваемым инструментом для управления петлями обучения и оценки по данным. Он упрощает тренировочные петли, обеспечивая гибкость для переопределения любой части процесса.
Управление гиперпараметром: гиперпараметрический файл на основе YAML указывает все гиперпараметры, от отдельных чисел (например, скорость обучения) до полных объектов (например, пользовательские модели). Это элегантное решение резко упрощает тренировочный сценарий.
Динамический DataLoader: обеспечивает гибкое и эффективное чтение данных.
Обучение графическим процессорам: поддерживает обучение в одиночном и мульти-GPU, включая распределенное обучение.
Динамическое пакетирование: динамическое пакетирование на лету повышает эффективную обработку сигналов переменной длины.
Обучение смешанного назначения: ускоряет обучение с помощью методов смешанного назначения.
Эффективное чтение данных: эффективно считывает большие наборы данных из общей сетевой файловой системы (NFS) через WebDataset.
Интеграция обнимающего лица: беспрепятственно взаимодействует с Huggingface для популярных моделей, таких как Wav2Vec2 и Hubert.
Интеграция Orion: интерфейсы с Orion для настройки гиперпараметра.
Методы увеличения речи: включает в себя оформление, шум, реверберацию и многое другое.
Сценарии подготовки данных: включает сценарии для подготовки данных для поддерживаемых наборов данных.

Speechbrain быстро развивается, с постоянными усилиями по поддержке растущего спектра технологий в будущем.

Производительность

SpeechBrain объединяет различные технологии, в том числе те, которые достигают конкурентной или современной работы.
Для полного обзора достигнутой производительности по различным задачам, наборам данных и технологиям, пожалуйста, посетите здесь.

Лицензия

SpeechBrain выпускается по лицензии Apache, версия 2.0, популярной лицензии, подобной BSD.
Вы можете свободно перераспределить Speambrain как для бесплатных, так и для коммерческих целей, с условием удержания заголовков лицензий. В отличие от GPL, лицензия Apache не является вирусной, то есть вы не обязаны выпускать модификации исходного кода.

? Планы на будущее

У нас есть амбициозные планы на будущее, с акцентом на следующие приоритеты:

Расширение: мы стремимся предоставить комплексные рецепты и технологии для обучения массовых моделей обширным наборам данных.
Расширение: хотя масштабирование обеспечивает беспрецедентную производительность, мы признаем проблемы развертывания крупных моделей в сценариях производства. Мы сосредотачиваемся на разговорном ИИ в реальном времени, потоковом и небольшом отпечатках.
Мультимодальные крупные языковые модели : мы представляем будущее, где одна модель фундамента может справиться с широким спектром текстовых, речевых и аудиозапроводов. Наша основная команда сосредоточена на том, чтобы обеспечить обучение продвинутых мультимодальных LLMS.

? Внося

SpeechBrain-это проект, управляемый сообществом, возглавляемый основной командой при поддержке многочисленных международных сотрудников.
Мы приветствуем вклад и идеи от сообщества. Для получения дополнительной информации проверьте здесь.

Спонсоры

SpeechBrain - это академический проект и опирается на страсть и энтузиазм своих участников.
Поскольку мы не можем полагаться на ресурсы крупной компании, мы глубоко ценим любую форму поддержки, включая пожертвования или сотрудничество с основной командой.
Если вы заинтересованы в спонсоре SpeechBrain, пожалуйста, обратитесь к нам по адресу [email protected].
Серьезное спасибо всем нашим спонсорам, в том числе текущие:

Ссылаясь на речи

Если вы используете SpeechBrain в своих исследованиях или в бизнесе, пожалуйста, укажите его, используя следующую запись Bibtex:

 @misc { speechbrainV1 ,
  title = { Open-Source Conversational AI with {SpeechBrain} 1.0 } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Adel Moumen and Sylvain de Langen and Cem Subakan and Peter Plantinga and Yingzhi Wang and Pooneh Mousavi and Luca Della Libera and Artem Ploujnikov and Francesco Paissan and Davide Borra and Salah Zaiem and Zeyu Zhao and Shucong Zhang and Georgios Karakasidis and Sung-Lin Yeh and Pierre Champion and Aku Rouhe and Rudolf Braun and Florian Mai and Juan Zuluaga-Gomez and Seyed Mahed Mousavi and Andreas Nautsch and Xuechen Liu and Sangeet Sagar and Jarod Duret and Salima Mdhaffar and Gaelle Laperriere and Mickael Rouvier and Renato De Mori and Yannick Esteve } ,
  year = { 2024 } ,
  eprint = { 2407.00463 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { cs.LG } ,
  url = { https://arxiv.org/abs/2407.00463 } ,
}
@misc { speechbrain ,
  title = { {SpeechBrain}: A General-Purpose Speech Toolkit } ,
  author = { Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio } ,
  year = { 2021 } ,
  eprint = { 2106.04624 } ,
  archivePrefix = { arXiv } ,
  primaryClass = { eess.AS } ,
  note = { arXiv:2106.04624 }
}