3 월 19 일, Orpheus TTS라는 오픈 소스 텍스트 음성 (TTS) 모델이 공식적으로 공개되었습니다. 이 모델은 인간의 감정 표현, 자연스럽고 부드러운 음성 효과 및 초 저쪽 대기 시간 실시간 출력 스트림 특성에 가까워지면서 빠르게 관심을 끌었습니다. Orpheus TTS는 실시간 대화 시나리오에서 잘 작동하며 지능적인 음성 상호 작용에 새로운 혁신을 가져올 것으로 예상됩니다.
Orpheus TTS는 낮은 대기 시간과 높은 감정적 표현에 중점을 둡니다. 핵심 기능에는 다음이 포함됩니다 : 초기 대기 시간, 기본 대기 시간은 약 200 밀리 초입니다. 입력 스트림 및 모델의 KV 캐시 최적화를 통해, 실시간 대화의 요구를 충족시키기 위해 지연을 25-50 밀리 초로 압축 할 수 있습니다. 정서적 표현과 음성 출력은 자연스럽고 매끄럽고 인간의 감정에 가깝고 풍부한 억양 변화를 지원하며 대화식 경험을 향상시킬 수 있습니다. 실시간 출력 스트림은 스트리밍 오디오 생성을 지원하여 음성 생성 및 입력이 동기화되도록하고 가상 어시스턴트, 고객 서비스 시스템과 같은 시나리오에 적합합니다.
낮은 대기 시간과 자연성이 높은 특성 덕분에 Orpheus TTS는 실시간 대화 분야에서 광범위한 잠재력을 가진 것으로 간주됩니다. 현명한 음성 어시스턴트, 온라인 교육 또는 가상 앵커 및 게임 캐릭터의 더빙이든이 모델은보다 인간적인 음성 상호 작용 경험을 제공 할 수 있습니다. 또한 오픈 소스 특성은 개발자에게 더 많은 사용자 정의 가능성을 제공합니다.
정서적 표현, 자연 효과 및 초저 지연 시간의 조합으로 Orpheus TTS는 TTS 기술의 새로운 높이입니다. 언어 합성의 품질을 향상시킬뿐만 아니라 실시간 출력 스트림을 통해 동적 대화 형 시나리오에 대한 새로운 상황을 열어줍니다. 앞으로이 모델은 오픈 소스 TTS 분야에서 벤치 마크가 될 수 있습니다.
주소 : https://github.com/canopyai/orpheus-tts