Hume AI는 사용자가 코딩이나 전문 지식 없이 고도로 개인화된 AI 음성을 생성할 수 있는 실험적 기능인 혁신적인 음성 제어 기능의 출시를 발표했습니다. 이 기능은 음성의 자연스러움, 감정 표현 및 사용자 정의 가능성을 더욱 향상시켜 개발자와 사용자에게 다양한 애플리케이션 요구 사항을 충족하는 솔루션을 만들 수 있는 전례 없는 수준의 제어 기능을 제공하는 Hume의 EVI2(Empathic Voice Interface 2)를 기반으로 합니다. 고객 서비스 챗봇, 디지털 비서, 교육 도구 등이 있습니다. 이 혁신적인 기술은 음성 AI 산업에 혁명을 일으키고 사용자에게 더욱 사려 깊고 개인화된 음성 경험을 제공할 것으로 기대됩니다.
감성 지능 음성 인터페이스에 주력하는 스타트업인 Hume AI는 최근 '음성 제어'라는 실험적인 기능을 출시했습니다.
이 새로운 도구는 개발자와 사용자가 코딩, AI 프롬프트 엔지니어링 또는 사운드 디자인 기술 없이도 개인화된 AI 사운드를 만들 수 있도록 설계되었습니다. 사용자는 사운드 특성을 정밀하게 조정하여 필요에 맞게 사운드를 쉽게 사용자 정의할 수 있습니다.

이 새로운 기능은 회사가 이전에 출시한 EVI2(Empathic Voice Interface 2)를 기반으로 구축되어 음성의 자연스러움, 정서적 반응성 및 사용자 정의 가능성을 향상시켰습니다. 기존의 음성 복제 기술과 달리 Hume의 제품은 고객 서비스 챗봇, 디지털 도우미, 교사, 투어 가이드 및 접근성 기능과 같은 다양한 애플리케이션의 요구 사항을 충족하기 위해 독특하고 표현력이 풍부한 음성을 전달하는 데 중점을 둡니다.
음성 제어를 통해 개발자는 성별, 자기주장, 흥분, 자신감 등을 포함한 10가지 다양한 차원에 따라 음성 특성을 조정할 수 있습니다.
“남성/여성: 남성적인 목소리와 여성적인 목소리 사이의 성별에 따른 발성.
자신감(Confidence): 소심함과 대담함 사이의 확고한 목소리.
부력: 수축과 부력 사이의 소리 밀도입니다.
자신감(Confidence): 수줍음과 자신감 사이의 목소리에 대한 확신의 정도.
열정(Enthusiasm): 목소리의 흥분, 차분함과 열정 사이의 어딘가.
비음(Nasal): 맑은 소리와 비음 사이의 목소리의 개방성입니다.
이완(Relaxation): 긴장과 이완 사이의 목소리의 압력.
부드러움(Smoothness): 부드러움과 스타카토 사이의 사운드 질감입니다.
부드러움(Mildness): 부드러움과 강력함 사이의 소리 뒤에 숨은 에너지.
견고함: 소리가 얼마나 포함되어 있는지(단단함과 숨가쁨 사이)입니다. "
사용자는 가상 슬라이더를 통해 실시간으로 이러한 속성을 미세 조정할 수 있으므로 사용자 정의가 간단하고 간단해집니다. 이 기능은 현재 Hume의 가상 플랫폼에서 사용할 수 있으며 사용자는 무료로 등록하기만 하면 액세스할 수 있습니다.
음성 제어는 현재 베타 버전으로 제공되며 Hume의 EVI(Empathic Voice Interface)와 통합되어 다양한 애플리케이션에서 사용할 수 있습니다. 개발자는 기본 음성을 선택하고, 그 특성을 조정하고, 결과를 실시간으로 미리 볼 수 있습니다. 이 프로세스는 세션 간 반복성과 안정성을 보장합니다. 이는 고객 서비스 봇이나 가상 도우미와 같은 실시간 애플리케이션의 핵심 기능입니다.
EVI2의 영향은 음성 제어 기능에서 분명하게 드러납니다. 초기 모델에는 음성 AI 애플리케이션의 범위를 넓히는 대화 프롬프트 및 다국어 기능과 같은 기능이 도입되었습니다. 예를 들어, EVI2는 자연스럽고 즉각적인 대화를 위해 1초 미만의 응답 시간을 지원합니다. 또한 대화 중에 말하기 스타일을 동적으로 조정할 수 있어 비즈니스를 위한 다용도 도구가 됩니다.
이러한 움직임은 AI 업계에서 미리 설정된 사운드에 의존하는 문제를 정확하게 해결하기 위한 것입니다. 많은 브랜드나 애플리케이션이 자신의 요구에 맞는 사운드를 찾는 데 어려움을 겪는 경우가 많습니다. Hume의 목표는 감정적으로 민감한 음성 AI를 개발하고 산업 발전을 촉진하는 것입니다. EVI2가 2024년 9월에 출시되면 이미 음성의 대기 시간과 비용 효율성을 크게 개선하고 음성 조정 기능에 대한 안전한 대안을 제공할 것입니다.
Hume의 연구 중심 접근 방식은 문화 간 음성 녹음과 감성 조사 데이터를 결합하는 제품 개발의 핵심입니다. 이 방법론은 EVI2와 새로 출시된 음성 제어의 기초를 형성하여 사람이 인식하는 소리를 아주 세밀하게 포착할 수 있습니다.
현재 음성 제어는 베타 버전으로 출시되었으며 Hume의 EVI(Empathic Voice Interface)와 결합되어 다양한 애플리케이션 시나리오를 지원합니다. 개발자는 실시간으로 기본 사운드를 선택하고 그 특성을 조정하고 결과를 미리 볼 수 있어 고객 서비스나 가상 비서와 같은 실시간 애플리케이션에서 일관성과 안정성을 보장할 수 있습니다.
시장 내 경쟁이 심화됨에 따라 Hume의 개인화 된 음성 및 감성 지능 포지셔닝은 음성 AI 분야에서 두각을 나타냅니다. 앞으로 Hume은 음성 제어 기능을 확장하고 조정 가능한 크기를 추가하며 음질을 최적화하고 기본 사운드의 선택을 늘릴 계획입니다.
공식 블로그: https://www.hume.ai/blog/introducing-voice-control
가장 밝은 부분:
**Hume AI는 사용자가 맞춤형 AI 음성을 쉽게 생성할 수 있는 '음성 제어' 기능을 출시했습니다. **
** 이 기능에는 코딩 기술이 필요하지 않으며 사용자는 슬라이더를 사용하여 사운드 시그니처를 조정할 수 있습니다. **
**Hume은 개인화되고 감성 지능적인 음성 AI를 통해 다양한 애플리케이션 요구 사항을 충족하도록 설계되었습니다. **
전체적으로, Hume AI의 '음성 제어' 기능은 AI 음성 맞춤화 분야에 새로운 가능성을 제공합니다. 그 편리성과 개인화 기능은 음성 AI 기술의 광범위한 적용을 촉진하고 사용자에게 보다 인간적인 음성 상호 작용 경험을 제공할 것으로 기대됩니다. 앞으로도 흄 AI는 지속적인 기능 개선과 확장을 통해 음성 AI 분야의 선두주자로 자리매김할 것으로 기대된다.