음성 보조원은 점차 우리의 일상 생활에서 없어서는 안될 부분이되고 있습니다. 그러나 기존의 디지털 음성 조수는 사용자와 상호 작용할 때 종종 둔해 보이며 감정적이고 인도적인 요소가 부족합니다. 이를 해결하기 위해 Sesame 팀은 디지털 어시스턴트를보다 현실적이고 이해할 수 있고 커뮤니케이션에서 가치있는 소중한 "음성 존재"라는 완전히 새로운 개념을 구현하기 위해 노력하고 있습니다.

참깨의 핵심 목표는 요청을 처리하기위한 도구가 아니라 디지털 동반자를 만드는 것입니다. 이 디지털 파트너는 사용자와의 상호 작용을 통해 점차적으로 신뢰와 자신감을 구축하기를 희망하여 사용자는 일상 생활에서 더 풍부하고 심오한 의사 소통을 경험할 수 있습니다. 이를 달성하기 위해 참깨 팀은 감성 지능, 대화 역학, 맥락 인식 및 일관된 성격 특성을 포함한 여러 주요 구성 요소에 중점을 두었습니다.
감성 지능은 음성 보조원이 사용자의 감정 상태를 이해하고 반응 할 수있는 능력입니다. 그것은 음성 명령에 대한 이해에 달려있을뿐만 아니라 음성의 정서적 변화를 인식하여보다 적절한 피드백을 할 수 있어야합니다. 둘째, Dialogue Dynamics는 적시 일시 정지, 적절한 톤 강조 및 중단 등을 포함하여 커뮤니케이션 과정에서 음성 보조원이 가져야하는 자연스러운 리듬을 강조하여 대화를보다 매끄럽고 자연스럽게 만듭니다.
또한 상황 인식도 중요합니다. 현재 상황과 일치하도록 대화의 맥락과 역사에 따라 음성 비서가 대화의 맥락과 역사에 따라 유연하게 자신의 음성과 스타일을 조정해야합니다. 이 기능은 다른 경우에 디지털 어시스턴트를 적절하게 보이게하여 사용자 만족도를 향상시킬 수 있습니다. 마지막으로, 일관된 성격 특성은 음성 보조원이 다양한 대화에서 비교적 일관된 성격과 스타일을 유지하여 사용자의 신뢰 감각을 향상시켜야한다는 것을 의미합니다.
그러나 "음성 존재"라는 목표를 달성하는 것은 쉽지 않습니다. 참깨 팀은 성격, 기억, 표현력 및 적절성의 다양한 측면에서 진전을 이루었습니다. 최근에 팀은 대화 연설 생성, 특히 친근감과 표현력 측면에서 그 방법의 잠재력을 완전히 보여주는 실험 결과를 보여주었습니다.
기술적 인 수준에서 참깨 팀은 전통적인 텍스트 음성 (TTS) 모델의 단점을 해결하기 위해 "Dialogue Phonetic Model"(CSM)이라는 새로운 접근법을 제안했습니다. 이 접근법은 컨버터 아키텍처를 활용하고보다 자연스럽고 일관된 음성 생성을 달성하는 것을 목표로합니다. CSM은 텍스트 및 오디오의 멀티 모달 학습을 다룰뿐만 아니라 대화의 역사를 기반으로 출력을 조정하여 상황에 따라 전통적인 모델의 단점을 해결합니다.
모델의 영향을 확인하기 위해 Sesame 팀은 전사, 세분화 등을 통해 훈련 및 준비된 훈련 샘플을 위해 많은 양의 공개 오디오 데이터를 사용했습니다. 그들은 다양한 크기의 모델을 훈련시키고 객관적 및 주관적 평가 지표에 대한 좋은 결과를 얻었으며, 현재 자연과 발명의 적응력 측면에서 인적 수준에 가깝지만 여전히 특정 대화 상황에서 개선되어야합니다.
공무원이 제공 한 샘플에서 판단하면 생성 된 작품은 AI 구성 요소를 거의들을 수 없습니다.
참깨 팀은 커뮤니티가 실험과 개선에 참여할 수 있도록 연구를 개방 할 계획입니다. 이러한 움직임은 대화 AI의 개발을 가속화하는 데 도움이 될뿐만 아니라 모델 척도 및 언어 지원을 확장하여 더 많은 응용 프로그램 시나리오를 다루기를 희망합니다. 또한 팀은 미리 훈련 된 언어 모델을 사용하여 멀티 모달 모델의 기초를 마련하는 방법을 탐색 할 계획입니다.
프로젝트 데모 : https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo
핵심 사항 :
참깨 팀은 디지털 어시스턴트가 명령을 실행할 수있을뿐만 아니라 실제 대화를 할 수 있도록“음성 존재”를 달성하기 위해 최선을 다하고 있습니다.
CSM (Dialogue Phonetic Model)을 통해 팀은 맥락 이해와 언어 생성에서 새로운 혁신을 만들었습니다.
이 팀은 오픈 소스 연구 결과를 계획하고 대화 AI의 추가 개발을 주도하기 위해 언어 지원을 확장합니다.