naturalspeech2 github. Недавно Microsoft объявила, что выпустит новую большую модель: NaturalSpeech2. По сравнению с предыдущими большими моделями, реконструкция речи NaturalSpeech2 «более точна», не «прилипает к чтению» и может улучшить качество обслуживания и удобство для пользователей. .
Microsoft недавно запустила речевую модель под названием NaturalSpeech2. Эта модель использует принцип «потенциального распространения» и дает выдающиеся результаты на уровне синтеза речи с нулевой выборкой. Microsoft утверждает, что эта модель обеспечивает решение речи/пения «коммерческого уровня», которое может дать результат. пользователи получают высококачественный и разнообразный опыт синтеза речи.
Microsoft провела серию демонстраций NaturalSpeech2, продемонстрировав его способность генерировать речь с различными личностями говорящих, просодией и стилями (например, пением) в ситуациях с нулевой выборкой.
Сообщается, что, в отличие от традиционных систем преобразования речи в текст (TTS), NaturalSpeech2 от Microsoft использует «непрерывные векторы» вместо «дискретных маркеров» для представления речи, тем самым генерируя более полные речевые сегменты и не производя «чтения с палочки», то есть «чтения с палочки». лишенный эмоций». (Говорить слово за словом)» явление.
Результаты экспериментов показывают, что речь, генерируемая NaturalSpeech2 в условиях нулевой выборки, почти соответствует просодии речевых подсказок и реальной речи, а естественность (измеренная CMOS) на тестовых наборах LibriTTS и VCTK неотличима от реальной речи.
Статья по этому проекту в настоящее время опубликована на GitHub.
1. Большая модель, официально представленная Microsoft
2. Это принесет игрокам множество новых интересных взаимодействий.
3. В настоящее время находится в стадии интенсивной разработки, следите за обновлениями.