인공지능 분야에서는 원활한 인간-기계 대화가 중요한 목표입니다. 그러나 AI는 '라운드 종료'를 판단하는 데 문제가 있어 대화 경험이 좋지 않은 경우가 많습니다. 사용자는 응답 시 AI 중단이나 지연을 자주 경험하며, 이는 인간과 컴퓨터 상호 작용의 효율성과 자연스러움에 심각한 영향을 미칩니다. 기존의 음성 활동 감지(VAD) 방법은 너무 단순하고 환경 소음 및 사용자 일시 중지에 쉽게 영향을 받으며 대화의 끝을 정확하게 판단할 수 없습니다.
인간-기계 대화의 세계에서 가장 골치아픈 것은 "말을 다하셨나요?"입니다. 이 문장은 간단해 보이지만 수많은 음성 비서와 고객 서비스 로봇이 극복할 수 없는 장애물이 되었습니다. 이런 상황에 자주 직면하시나요? 다음에 무슨 말을 해야 할지 생각하기 위해 잠시 멈췄지만 AI는 응답을 기다릴 수 없거나, 분명히 말을 마쳤지만 AI는 여전히 기다리고 있습니다. 어리석게도, "끝났어요"라고 말할 수밖에 없을 때까지 이 경험은 정말 미친 짓입니다.

AI가 고의로 문제를 일으키기 때문이 아니라 '턴 종료'(EOT)를 판단할 때 소리가 나는지 여부만 들을 수만 있고 알아낼 수 없는 '맹인'과 같기 때문이다. 소리가 나든 안 나오든 아직 끝나지 않았습니다. 전통적인 방법은 주로 "음성 활성화 스위치"와 같은 음성 활동 감지(VAD)에 의존합니다. 소리가 없는 한 음성 신호가 있는지 여부에만 주의를 기울입니다. 말을 마쳤습니다. 잠시 멈춤과 배경 소음으로 인해 혼란스러울 수 있습니까? 너무 "단순"합니다!
그러나 최근 Livekit이라는 회사는 더 이상 참지 못하고 AI에 더 똑똑한 "두뇌"를 설치하기로 결정했습니다. 그들은 오픈 소스의 정확한 음성 회전 감지 모델을 개발했습니다. 이 모델은 실제 "마음 읽기" 마스터와 같으며 말하기를 마쳤는지 정확하게 확인할 수 있습니다. 이것은 단순한 "음성 작동 스위치"가 아니라, 당신의 말의 의도를 이해할 수 있는 "지능형 비서"입니다!
Livekit 모델의 가장 큰 장점은 단순히 "소리가 있는지 여부"에만 의존하는 것이 아니라 Transformer 모델과 기존 VAD(음성 활동 감지)를 결합한다는 것입니다. 이는 AI에게 '슈퍼 브레인'과 '귀'를 장착하는 것과 같습니다. "Shunfeng Ear"는 소리가 있는지 모니터링하는 역할을 담당하고, "Super Brain"은 이러한 소리의 의미를 분석하여 단어가 완전한지, 완성되지 않은 의미가 있는지 이해하는 역할을 합니다. 이 두 가지의 강력한 조합을 통해 정확한 "라운드 종료 감지"를 실제로 달성할 수 있습니다.
이 모델은 무엇을 할 수 있습니까? 음성 비서 및 고객 서비스 로봇과 같은 AI 파트너가 응답을 시작하기 전에 말하기가 끝났는지 더 정확하게 판단할 수 있습니다. 이는 의심할 여지 없이 인간과 기계 간의 대화의 부드러움과 자연스러움을 크게 향상시킵니다. 앞으로는 AI와 채팅할 때 더 이상 "도둑질"을 당하거나 "멍청한 척"당할까봐 걱정할 필요가 없습니다!
그들의 강점을 입증하기 위해 Livekit은 테스트 결과도 보여주었습니다. 그들의 새로운 모델은 AI의 "잘못된 방해"를 85%까지 줄일 수 있습니다. 더 부드럽고 더 기분 좋게. 생각해 보십시오. 앞으로 고객 서비스에 전화할 때 더 이상 AI의 기계적인 답변에 당황하지 않고 실제 사람과 대화하는 것만큼 편안할 수 있습니다. 이 경험은 그야말로 놀랍습니다!
또한 이 모델은 음성 고객 서비스, 지능형 질문 및 답변 로봇 등과 같이 인간-기계 대화가 필요한 시나리오에 특히 적합합니다. Livekit은 또한 사용자의 질문을 받은 후 해당 답변을 제공하기 전에 사용자가 모든 정보를 완료할 때까지 인내심을 갖고 기다릴 것입니다. 이것은 당신의 필요를 진정으로 이해하는 "친밀한 사람"과 같습니다. 그는 당신이 말을 마치기 전에 "끼어들지" 않을 것이며, 당신이 말을 끝냈을 때 그는 여전히 "멍청한" 상태를 유지하지 않을 것입니다.
물론 이 모델은 아직 오픈소스 단계이고 개선의 여지가 많다. 그러나 우리는 기술의 지속적인 발전으로 미래의 인간과 기계의 대화가 더욱 자연스럽고 원활하며 지능적으로 이루어질 것이라고 믿을 만한 이유가 있습니다. 어쩌면 어느 날 우리는 우리가 대화하고 있는 것이 차가운 기계이지만 당신을 정말로 이해하는 "AI 파트너"라는 사실을 정말로 잊게 될 것입니다.
프로젝트 주소: https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-Detector
Livekit의 오픈 소스 모델은 인간-컴퓨터 대화의 "턴 종료" 문제를 해결하기 위한 새로운 아이디어를 제공하여 보다 자연스럽고 원활한 인간-컴퓨터 상호 작용 경험을 향한 한 걸음을 내디뎠습니다. 우리는 앞으로 이 모델이 더욱 개선되고 적용되어 사용자에게 더욱 편리하고 지능적인 인간-기계 대화 경험을 제공할 수 있기를 기대합니다.