Загрузка WhisperSpeech - WhisperSpeech исходный код скачать

WhisperSpeech

AI Исходный код

1.0.0

Скачать

Whisperspeech

Если у вас есть вопросы или вы хотите помочь, вы можете найти нас в канале #аудиопогенерации на сервере Discord Laion.

Система с открытым исходным кодом текста в речь, построенная путем инвертирования шепота. Ранее известный как Spear-TTS-Pytorch .

Мы хотим, чтобы эта модель была похожа на стабильную диффузию, но для речи - как мощной, так и легко настраиваемой.

Мы работаем только с правильно лицензированными речевыми записями, и весь код является открытым исходным кодом, поэтому модель всегда будет безопасна для использования для коммерческих приложений.

В настоящее время модели обучаются на наборе данных английского LibreLight. В следующем выпуске мы хотим нацеливаться на несколько языков (Whisper и Encodec являются многолучеванием).

Образец синтезированного голоса:

Whisperspeech-Sample.mp4

Обновление прогресса [2024-01-29]

Мы успешно обучили tiny модель S2A на наборе данных EN+PL+FR, и она может выполнять голосовой клонирование на французском языке:

FR-VOICE-CLONE-2.MP4

FR-Voice-Clone-1.mp4

Мы смогли сделать это с замороженными семантическими токенами, которые были обучены только на английском и лаке. Это поддерживает идею о том, что мы сможем обучить одну модель семантического токена для поддержки всех языков в мире. Вполне вероятно, что даже те, которые в настоящее время не поддерживаются моделью Whisper. Следите за обновлениями на этом фронте. :)

Обновление прогресса [2024-01-18]

Мы проводим последнюю неделю оптимизируя производительность вывода. Мы интегрировали torch.compile , добавили KV-кэширование и настроили некоторые слои-теперь мы работаем в 12 раз быстрее, чем в режиме реального времени на потребителе 4090!

Мы можем смешивать языки в одном предложении (здесь выделенные английские имена проектов плавно смешаны с польской речью):

Чтобы Jest Pierwszy Test Wielojęzycznego Whisper Speech Modelu Zamieniającego tekst na mowę, Który Collabora i Laion nauczyli na superkomputerze Jewels .

pl-en-mix.mp4

Мы также добавили простой способ протестировать голосовой клонинг. Вот образец голоса, клонированный из известной речи Уинстона Черчилля (радиосвязь - это особенность, а не ошибка;) - это часть справочной записи):

en-cloning.mp4

Вы можете проверить все это на Colab (мы оптимизировали зависимости, поэтому теперь для установки требуется менее 30 секунд). Скоро наступит пространство для объятий.

Обновление прогресса [2024-01-10]

Мы подтолкнули новую модель SD S2A, которая намного быстрее, при этом генерируя высококачественную речь. Мы также добавили пример голосового клонирования на основе эталонного аудиофайла.

Как всегда, вы можете проверить нашу колаба, чтобы попробовать сами!

Обновление прогресса [2023-12-10]

Еще одно трио моделей, на этот раз они поддерживают несколько языков (английский и польский). Вот два новых образца для подглядывания. Вы можете проверить нашу колаба, чтобы попробовать сами!

Английская речь, женский голос (перенесен из набора данных польского языка):

Whisperspeech-Sample.mp4

Польский образец, мужской голос:

Whisperspeech-Sample-pl.mp4

Здесь архивируют более старые обновления прогресса

Загрузки

Мы рекомендуем вам начать со ссылки Google Colab выше или запустить предоставленную ноутбук на локальном уровне. Если вы хотите загрузить вручную или тренировать модели с нуля, то как Whisperspeech, предварительно обученные модели, так и конвертированные наборы данных, доступны на Huggingface.

Дорожная карта

Соберите более крупный набор данных эмоциональной речи
Выяснить способ установить генерацию на эмоциях и просодии
Создайте усилия сообщества, чтобы собрать свободно лицензированную речь на нескольких языках
Окончайте многоязычные модели

Архитектура

Общая архитектура аналогична Audiolm, Spear TTS от Google и MusicGen от Meta. Мы избежали синдрома NIH и построили его поверх мощных моделей с открытым исходным кодом: Whisper от Openai, чтобы генерировать семантические токены и выполнить транскрипцию, incodec от Meta для акустического моделирования и Vocos от Parmantr Inc в качестве высококачественного вокала.

Мы дали две презентации погружение глубже в Whisperspeech. Первый рассказывает о проблемах крупномасштабного обучения:

Трюки, изученные из масштабирования моделей Whisperspeech до 80K+ часов речи - видеозапись Jakub Cłapa, Collabora

Другой все больше входит в архитектурный выбор, который мы сделали:

Проекты с открытым исходным кодом

Шепот для моделирования семантических жетонов

Мы используем блок энкодера Openai для генерации встраиваний, которые мы затем определяем, чтобы получить семантические жетоны.

Если язык уже поддерживается Whisper, то этот процесс требует только аудиофайлов (без основных транскрипций истины).

Использование Whisper для семантической диаграммы экстракции токенов

Encodec для моделирования акустических токенов

Мы используем Encodec для моделирования формы волны аудио. Из коробки он обеспечивает разумное качество со скоростью 1,5 кбит / с, и мы можем довести это до качества, используя Vocos-Vocoder, предварительно проведенный на токенах Encodec.

Блок -диаграмма Encodec

Признательность

Логотип Collabora Laion Logo

Эта работа была бы невозможна без щедрого спонсорства от:

Collabora - разработка кода и обучение модели
Laion - Создание сообщества и наборы данных (особая благодарность
Юлихский суперкомпьютерный центр - суперкомпьютер Juwels Booster

Мы благодарны за то, что Центр суперкомпьютинг EV (www.gauss-sentre.eu) Центр по суперкомпьютинге (www.gauss-gent.eu), предоставляя вычислительное время через Институт вычислительных наук Джона фон Неймана (NIC) на суперкомпьютере GCS Juwels Booster в Jülich Supercomputing Center (JSC), с доступом к компоненту, предоставленному с помощью Comoperection Laion Cooperection на модели основы.

Мы также хотели бы поблагодарить отдельных участников за большую помощь в создании этой модели:

Неизбежно-2031 ( qwerty_qwer ON DISCORD) для курирования наборов данных

Консалтинг

Мы готовы помочь вам с открытым исходным кодом и проприетарными проектами искусственного интеллекта. Вы можете связаться с нами через веб -сайт Collabora или на Discord (и)

Цитаты

Мы полагаемся на многие удивительные проекты с открытым исходным кодом и исследовательские работы:

 @article { SpearTTS ,
  title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
  url = { https://arxiv.org/abs/2302.03540 } ,
  author = { Kharitonov, Eugene and Vincent, Damien and Borsos, Zalán and Marinier, Raphaël and Girgin, Sertan and Pietquin, Olivier and Sharifi, Matt and Tagliasacchi, Marco and Zeghidour, Neil } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { MusicGen ,
  title = { Simple and Controllable Music Generation } , 
  url = { https://arxiv.org/abs/2306.05284 } ,
  author = { Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { Whisper
  title = { Robust Speech Recognition via Large-Scale Weak Supervision } ,
  url = { https://arxiv.org/abs/2212.04356 } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { EnCodec
  title = { High Fidelity Neural Audio Compression } ,
  url = { https://arxiv.org/abs/2210.13438 } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { Vocos
  title = { Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis } , 
  url = { https://arxiv.org/abs/2306.00814 } ,
  author = { Hubert Siuzdak } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}