3 월 13 일, Sesame은 공식적으로 최신 음성 합성 모델 CSM을 발표하여 업계의 광범위한 관심을 빠르게 끌어 들였습니다. 공식 소개에 따르면 CSM은 변압기를 기반으로 한 엔드 투 엔드 멀티 모달 학습 아키텍처를 채택하여 상황 정보를 깊이 이해하고 자연스럽고 감정적 인 목소리를 생성 할 수 있습니다. 음향 효과는 매우 현실적이며 실제 사람들과 거의 동일하며 놀랍습니다.
CSM 모델은 실시간 음성 생성을 지원할뿐만 아니라 텍스트 및 오디오 입력도 처리합니다. 사용자는 톤, 톤, 리듬 및 감정과 같은 특성을 제어하기 위해 매개 변수를 조정하여 매우 높은 유연성을 보여줄 수 있습니다. 이 개인화 된 음성 생성 능력을 통해 CSM은 다양한 응용 프로그램 시나리오에서 잘 수행 할 수 있습니다.
CSM은 AI 음성 기술 분야에서 주요 획기적인 획기적인 것으로 간주됩니다. 발음은 매우 자연스럽고 심지어 "인공 합성 또는 실제 사람으로 알려지지 않은 수준에 도달합니다. 일부 사용자는 CSM이 거의 지체가 없다는 것을 보여주기 위해 비디오를 녹화했으며 "가장 강력한 모델"이라고 불렀습니다. 이전에 Sesame은 CSM-1B의 작은 버전의 소스를 열었습니다. 이는 여러 라운드의 대화를 지원하여 일관된 목소리를 생성하여 널리 찬사를 받았습니다.
현재 CSM은 주로 영어 교육을 받았으며 매우 잘 수행했습니다. 그러나 CSM은 여전히 다국어 지원 측면에서 특정 제한 사항이 있습니다. 현재이 모델은 중국어를 지원하지는 않지만 세서미는 앞으로 더 많은 사용자의 요구를 충족시키기 위해 언어 지원을 확장 할 것으로 예상하고 있다고 말했다.
Sesame은 또한 Github의 커뮤니티 개발자들 사이에서 격렬한 토론을 촉발 한 결정 인 연구 결과를 공개 할 것이라고 밝혔다. CSM은 대화 AI에 적합 할뿐만 아니라 교육 및 엔터테인먼트와 같은 영역에서 음성 상호 작용 경험의 혁신을 촉진 할 수도 있습니다. 업계 내부자들은 일반적으로 CSM이 AI 음성 보조원의 표준을 재구성하고보다 자연스러운 인간 컴퓨터 대화 경험을 가져올 수 있다고 생각합니다.