В области искусственного интеллекта Хьюм Ай недавно объявил о запуске своего нового продукта, Octave, системы, известной как первая система текста в речь, основанная на крупной языковой модели (LLM). Что инновация в октаве, так это то, что он может не только генерировать естественный голос, но и понимать эмоции, интонацию, ритм и ритм в контексте, что предоставляет пользователям более яркий и гуманизированный голосовой выход.
Алан Коуэн, соучредитель и генеральный директор Hume AI, сказал в интервью со средствами массовой информации, что первоначальное намерение модели Octave было сделать процесс генерации текста в речь более естественным и гибким. Он упомянул, что Octave может автоматически идентифицировать личность и эмоциональное состояние персонажа на основе контента ввода текста и соответствующим образом отрегулировать производительность голоса. Например, саркастические предложения выражаются саркастическим тоном, в то время как срочный контент представлен в тоне.

Octave также имеет уникальную функцию, в которой пользователи могут вносить тщательные настройки к созданному звуку с помощью простых инструкций естественного языка. Это означает, что пользователи могут непосредственно вводить такие описания, как «счастливее» и «Sader», так что генерируемый голос в большей степени соответствует их ожиданиям. Коуэн добавил, что октава может немедленно генерировать соответствующие голоса на основе характеристик персонажа, таких как «саркастические средневековые крестьяне», и соответственно корректируется в эмоциональном выражении.

В отличие от традиционной модели дословной обработки, октава значений контекста когерентности и может отражать эмоциональные изменения на уровне предложения и между предложениями. Эта способность делает Octave лучше работать при работе со сложными эмоциями и контекстами.
Благодаря быстрому развитию технологий искусственного интеллекта, Octave System от Hume AI принесла новые возможности для технологии текста в речь. Он может не только предоставить более реалистичного персонажа, дублирующих такие отрасли, как кино и телевизионное производство и разработка игр, но и открыть новые направления для приложений в таких областях, как образование и обслуживание клиентов. Это инновация в ЮМЕ -ИИ будет дополнительно способствовать развитию технологий голоса и поможет более естественным и эмоциональным методам общения.