Outetts-0.1-350M: новый метод синтеза текста в речь с функцией клонирования голоса с нулевым образцом-статьи AI

Автор：Eve Cole Время обновления：2025-02-13 03:32:01

OUTE AI запустил новый метод синтеза текста в речь CALLETS-0.1-350M, упрощенную модель TTS, основанную на архитектуре LLAMA. Он не требует внешнего адаптера, непосредственно использует Wavtokenkizer для генерации аудио тегов и имеет функцию голоса с нулевым образцом, которая может копировать новые звуки всего за несколько секунд эталонного звука. Параметры модели относительно малы по масштабе, но она может достичь производительности, сравнимой с более крупными и более сложными системами, и совместима с Llama.cpp, что делает ее идеальным для приложений в реальном времени. Его эффективность и простота использования заставляют его иметь широкий спектр перспектив применения в таких областях, как персонализированные помощники, аудиокниги и локализация контента.

Недавно AUTE AI выпустил новый метод синтеза текста в речь CALLTS-0.1-350M. Этот подход использует моделирование чистого языка без внешних адаптеров или сложных архитектур, обеспечивая упрощенный подход TTS. Outetts-0.1-350M основан на архитектуре LLAMA, используя Wavtokenizer для непосредственного генерации аудиогических тегов, что делает процесс более эффективным.

Модель имеет клонирование голоса с нулевой выборкой и может копировать новые звуки всего за несколько секунд справочного звука. Outetts-0.1-350M предназначен для производительности устройства и совместим с llama.cpp, что делает его идеальным для приложений в реальном времени. Хотя модель имеет относительно небольшой размер параметров (350 миллионов), ее производительность сопоставима с более крупными и более сложными системами TTS.

Доступность и эффективность Outetts-0.1-350M делают его подходящим для широкого спектра приложений, включая персонализированных помощников, аудиокниг и локализацию контента. Oute AI, выпущенный в соответствии с лицензией CC-BY, поощряет дальнейшие эксперименты и интеграцию в различные проекты по демократизации передовой технологии TTS.

Выпуск Outetts-0.1-350M отмечает ключевой шаг вперед в технологии текста в речь, которая использует упрощенную архитектуру для обеспечения высококачественного синтеза речи с минимальными вычислительными требованиями. Он интегрирует архитектуру ламы, использует Wavtokenkizer и способен выполнять клонирование голоса с нулевым образцом без сложных адаптеров, что отличает его от традиционной модели TTS.

Адрес: https://www.outeai.com/blog/outetts-0.1-350m

Эффективная, упрощенная, упрощенная архитектура и функция голосового клонирования с нулевым прибором. Его характеристики с открытым исходным кодом способствовали технологическому развитию и популяризации приложений в этой области.