Натуральная речь2

Услуги жизнеобеспечения

v1.0

Ресурсов нет

naturalspeech2 github. Недавно Microsoft объявила, что выпустит новую большую модель: NaturalSpeech2. По сравнению с предыдущими большими моделями, реконструкция речи NaturalSpeech2 «более точна», не «прилипает к чтению» и может улучшить качество обслуживания и удобство для пользователей. .

NaturalSpeech2 введение

Microsoft недавно запустила речевую модель под названием NaturalSpeech2. Эта модель использует принцип «потенциального распространения» и дает выдающиеся результаты на уровне синтеза речи с нулевой выборкой. Microsoft утверждает, что эта модель обеспечивает решение речи/пения «коммерческого уровня», которое может дать результат. пользователи получают высококачественный и разнообразный опыт синтеза речи.

Microsoft провела серию демонстраций NaturalSpeech2, продемонстрировав его способность генерировать речь с различными личностями говорящих, просодией и стилями (например, пением) в ситуациях с нулевой выборкой.

Сообщается, что, в отличие от традиционных систем преобразования речи в текст (TTS), NaturalSpeech2 от Microsoft использует «непрерывные векторы» вместо «дискретных маркеров» для представления речи, тем самым генерируя более полные речевые сегменты и не производя «чтения с палочки», то есть «чтения с палочки». лишенный эмоций». (Говорить слово за словом)» явление.

Результаты экспериментов показывают, что речь, генерируемая NaturalSpeech2 в условиях нулевой выборки, почти соответствует просодии речевых подсказок и реальной речи, а естественность (измеренная CMOS) на тестовых наборах LibriTTS и VCTK неотличима от реальной речи.

Статья по этому проекту в настоящее время опубликована на GitHub.