Sesame의 최신 음성 합성 모델 "CSM (Conversational Speech Model)"(CSM)은 최근 X 플랫폼에서 격렬한 토론을 촉발했으며 "실제 사람과 같은 음성 모델"으로 알려져 있습니다. 이 모델은 놀라운 본질과 감정적 표현 능력을 통해 사용자가 인간과의 차이를 더 이상 구별 할 수 없을뿐만 아니라 음성 분야에서 "Uncanny Valley Effect"를 성공적으로 교차했다고 주장합니다. 시연 비디오와 사용자 피드백이 확산되면서 CSM은 AI 음성 기술의 새로운 벤치 마크가되고 있습니다.

"언더 월드 밸리"를 건너 : CSM의 기술 혁신
"언더 월드 밸리 효과"는 인위적으로 합성 된 음성이나 이미지가 실제 인간과 가깝지만 여전히 미묘한 차이가있을 때 인간의 불편 함의 불편 함을 나타냅니다. 참깨는 CSM 모델을 통해이 문제를 정면으로 처리합니다. X 사용자 @Imxiaohu 3 월 1 일에 게시했습니다. "형제,이 새로운 음성 모델은 훌륭하고 더 이상 구별 할 수 없습니다!" 그는 CSM이 성격, 기억, 표현 능력 및 맥락 적합성에서 우수한 성능을 가지고 있으며, 전통적인 음성 보조원의 기계적 느낌을 거의 제거한다고 지적했다.
참깨 팀은 공식 연구 기사에서 CSM의 목표는 "음성 존재"를 달성하는 것이라고 밝혔습니다. 이 돌파구는 감정 지능 (감정에 대한 해석 및 반응), 상황 기억 (대화 기록을 기반으로 한 출력 조정) 및 고 충실한 음성 생성 기술과 같은 핵심 구성 요소 때문입니다. 시연 중에 CSM은 매우 긴 대화에서 자연스러운 톤과 감정적 측면을 보여 주었으며 사용자는 알지 못하고 AI로 구별 할 수 없었습니다.

현실적인 사용자 경험
X 플랫폼의 사용자 피드백은 CSM의 놀라운 성능을 추가로 확인합니다. @Imxiaohu는 다양한 장면과 시나리오를 다루는 포스트에서 매우 긴 대화 시연을 공유했으며 "어조와 감정은 일부 표현에서 인간과 매우 가깝습니다." 그는 힌트가 없으면이 모델의 출력으로 인해 참와 거짓을 구별하기가 어렵다고 언급했습니다. 또 다른 사용자 @leeoxiang은 3 월 1 일에 30 분 동안 CSM과 영어를하는 연습을했으며 거의 지연이 느껴지지 않았다고 말했다. 그는 그의 "비용은 매우 잘 이루어졌으며 그 안에 약간의 어조가있을 것"이라고 말했다.
공동체의 열정은 찬양에만 국한되지 않습니다. 많은 사용자들은 CSM의 대화 유창성과 감정 표현이 OpenAI의 ChatGpt 음성 모드와 같은 기존 주류 모델을 능가했다고 지적합니다. @op7418은 2 월 28 일에 Sesame의 기술 기사에주의를 기울이고 고유 한 음성 진위 평가 시스템을 강조하여 모델의 기술적 인 엄격함을 보여줍니다.
여전히 개선의 여지 : Sesame의 미래 계획
CSM의 충격적인 성능에도 불구하고 Sesame은 공식적으로 이것이 끝이 아니라고 인정했습니다. @Imxiaohu는 공식 진술을 인용하고 "이것은 가장 완벽하지 않으며 여전히 개선의 여지가 많다"고 말했다. 현재 CSM은 영어와 같은 여러 언어를 지원하지만 @leeoxiang이 지적했듯이 중국어는 아직 지원되지 않습니다. 또한 일부 사용자는 테스트에서 특정 상황에서 모델의 성능 (예 : 외국어 스위칭 또는 음악 노래)이 여전히 개선의 여지가 있음을 발견했습니다.
Sesame은 연구 결과 중 일부를 오픈 소스로 약속했으며 Github 페이지 (Sesameailabs/CSM)는 CSM이 APACHE2.0에 따라 라이센스를받을 것이라고 보여줍니다. 이러한 움직임은 개발자 커뮤니티의 기대를 불러 일으켰으며 많은 사람들이 건축에 대한 심층적 인 연구를 통해 음성 AI의 개발을 더욱 촉진하기를 희망합니다.
산업 영향 및 전망
CSM의 데뷔는 "Unortal Valley Effect"에 대한 기술적 인 반응 일뿐 만 아니라 AI 음성 상호 작용에 대한 새로운 표준을 설정합니다. Grok, Claude 및 기타 모델과 비교할 때 CSM은 실시간, 낮은 대기 시간 및 감정적 표현에서 특히 뛰어난 이점을 가지고 있습니다. X user @ableGpt는 3 월 2 일에 다음과 같이 말했습니다 : "AI Voice를 공부하는 경우이 기사를 읽는 것이 좋습니다." 이것은 기술 원에 대한 CSM의 영감을주는 중요성을 반영합니다.
참깨가 언어 지원을 확장하고 모델을 최적화하려는 계획을 통해 CSM은 교육, 엔터테인먼트 및 가상 동반자와 같은 분야에서 빛을 발할 것으로 예상됩니다. X에 대한 열정적 인 반응으로 판단하면,이 "형제들은 놀라운 일이라고 생각합니다"음성 모델은 사람들이 현실적인 대화로 AI와 상호 작용하는 방식을 재정의하는 것입니다. 미래에, 그것은 "Uncanny Valley"를 완전히 제거하고 진정한 "디지털 파트너"가 될 수 있습니까? 대답은 참깨의 다음 반복에있을 수 있습니다.
시험 주소 : https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo