Проект Funaudiollm, недавно запущенный Alibaba Tongyi Labs, отмечает совершенно новую эру технологии генерации аудио. Этот проект с открытым исходным кодом пересмотрел возможность взаимодействия голоса человека через свои две основные модели Sensevoice и Cosyvoice. Funaudiollm не только демонстрирует глубокое накопление Алибабы в области искусственного интеллекта, но и указывает на направление будущего развития интеллектуальных голосовых технологий.
Как двигатель генерации голоса проекта, технологические прорывы Cosyvoice впечатляют. После 150 000 часов многоязычного обучения данных модель не только достигла плавной генерации пяти языков, а именно китайского, английского, японского, гуантона и корейского, но и достигла нового уровня моделирования тона и эмоционального контроля. Его уникальная возможность генерации голоса с нулевым образцом позволяет модели быстро адаптироваться к голосу нового динамика, предоставляя неограниченные возможности для персонализированных голосовых услуг. Особенно при перекрестном синтезе звука, Cosyvoice показал удивительную адаптивность, проложив путь для глобальных приложений голосового взаимодействия.
Sensevoice представляет новый эталон в технологии распознавания речи. После 400 000 часов многоязычного обучения данных точность распознавания значительно превосходит существующую модель шепота на более чем 50 языках. В китайском и кантонском признании уровень точности увеличился более чем на 50%, что привело к революционному прорыву в интеллектуальном применении голоса на китайском рынке. Более того, стоит упомянуть, что Sensevoice интегрирует функции распознавания эмоций и обнаружения аудио, позволяя машине не только понимать язык, но и понимать эмоции и информацию о сцене спикера.

Funaudiollm имеет чрезвычайно широкие сценарии приложений, от многоязычного перевода в реальном времени до эмоциональных голосовых разговоров, от интерактивных подкастов до умных аудиокниг, каждая область содержит огромную коммерческую ценность. Объединяя точное распознавание Sensevoice, сильное понимание LLM и естественного поколения Cosyvoice, проект достигает настоящего сквозного голоса интерактивного опыта. Эта бесшовная способность перевода голоса в речь будет революционизировать путь межязычного общения и принести новые возможности для глобализированных бизнес-и культурных обменов.
С точки зрения технической реализации, Cosyvoice принимает технологию кодирования претенденной квантования речи, чтобы обеспечить естественность и беглость генерируемой речи. Sensevoice интегрирует такие функции, как автоматическое распознавание речи, распознавание языка, распознавание эмоций и обнаружение аудио-событий в единую модель с помощью многозадачной структуры обучения, значительно повышая эффективность и точность системы. Эта техническая архитектура не только снижает вычислительные затраты, но также обеспечивает хорошую основу для последующей оптимизации модели и функционального расширения.
Открытое отношение лаборатории Alibaba Tongyi также заслуживает похвалы. Команда проекта не только выпустила полные модели и код на моделях и Huggingface, но также предоставила подробные руководства по обучению, рассуждениям и настройке на GitHub. Этот дух с открытым исходным кодом значительно будет способствовать развитию исследований и применений в области голосовых технологий и окажет положительное влияние на всю отрасль.
Адрес проекта: https://github.com/funaudiollm