Fish Audio выпустила свою новую модель обработки голоса, Fish Agent V0.13b, впечатляющую модель голоса в речь, которая может эффективно и точно генерировать и обрабатывать речь, и хорошо имитирует и клонирует различные звуки. Модель предварительно обучена на основе QWEN-2,5-3B-факторов и использует огромный набор данных, содержащий 200 миллиардов токенов речи и текста. Его инновации заключаются в принятии архитектуры «не содержащей семантической», которая непосредственно обрабатывает голос на уровне звука, тем самым повышая скорость и эффективность, реализуя «мгновенный» клонирование голоса и конверсию текста в речь, что занимает всего 200 миллисекунд. Модель поддерживает несколько языков и является открытым исходным кодом, внедряя новые возможности для разработки технологии AI Voice.
Недавно Fish Audio выпустила новую модель голоса модели Fish Agent v0.13b. Это означает, что мы на шаг ближе к тому, чтобы иметь естественный и отзывчивый голосовой помощник ИИ.
Модель Fish Agent V0.13b предварительно обучена на основе QWEN-2.5-3B-синструкции и использует огромный набор данных, содержащий 200 миллиардов токенов речи и текста. В отличие от традиционных моделей, которые требуют сначала преобразования речи в сложную семантическую кодировку, Fish Agent V0.13b принимает архитектуру, называемую «токен без семантического» для обработки и генерирования речи непосредственно на уровне звука. Эта прямая обработка не только упрощает структуру модели, но и улучшает скорость и эффективность реакции модели.

Благодаря этой инновационной архитектуре, Fish Agent v0.13b может быстро и естественно генерировать высококачественный голос, обеспечивая «мгновенное» голосовое клонирование и преобразование текста в речь с временем преобразования текста в Аулио (TTFA) всего за 200 миллисекунд. Полем Эта функция делает его идеальным для сценариев приложений, которые требуют генерации голоса в реальном времени, таких как голосовые помощники, автоматическое обслуживание клиентов и другие сценарии, которые требуют быстрой обратной связи.

Модель Fish Agent V0.13b поддерживает несколько языков, включая английский, китайский, немецкий, японский, французский, испанский, корейский и арабский язык, и использует около 700 000 часов многоязычных аудиоданных для обучения. Это означает, что он может обрабатывать несколько языков и контекстов и генерировать более естественное и более близкое произношение для реального человека.
В дополнение к функциям конверсии генерации голоса в речь и преобразования текста в речь, Fish Agent V0.13b также имеет следующие ключевые функции:
Клонирование голоса с нулевым образцом: клонирование голоса может быть достигнуто без тренировок.
Упрощенные параметры 3b: используйте 3 миллиарда параметров для легкой разработки.
Поддерживает текстовый и аудио ввод: гибкий метод много ввода.
В настоящее время Fish Audio открыл модель Fish Agent V0.13b и предоставляет предварительную демонстрационную версию для пользовательского опыта. Выпуск этой модели дополнительно способствует разработке технологий AI Voice и принесет больше возможностей для таких приложений, как голосовые помощники и виртуальные люди.
Github: https://github.com/fishaudio/fish-speech
Демонстрация рыбного агента: https://huggingface.co/spaces/fishaudio/fish-agent
Скачать модель: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Технический отчет: https://arxiv.org/abs/2411.01156
Выпуск с открытым исходным кодом модели Fish Agent V0.13b принесет новые прорывы в исследование и применение Voice Field AI, и стоит с нетерпением ждать его роли в будущем разработке голосовых технологий. Я надеюсь, что все больше разработчиков смогут участвовать и совместно способствовать развитию технологии AI Voice.