음성 AI는 "한 단계로"입니다! 스텝 오픈 소스 130B 지배적 인 음성 모델, 실시간 대화 + 정서적 복제, 폭발 - AI 기사

저자：Eve Cole 업데이트 시간：2025-05-15 03:25:02

음성 상호 작용 기술 분야는 최근 주요 획기적인 발전을 시작했습니다. 주요 국내 AI 회사 인 Step Audio는 1,300 억 개의 매개 변수를 가진 초대형 음성 모델의 오픈 소스를 발표했습니다. 이 혁신적인 업적은 업계에서 광범위한 관심을 끌었으며 Voice AI 기술 개발의 이정표로 환영 받고 있습니다. 이 모델은 음성 이해력과 생성 제어를 통합하는 최초의 오픈 소스 실시간 음성 대화 시스템 일뿐 만 아니라 음성 상호 작용 기술이 포괄적 인 기능과 고급 기술로 새로운 높이로 이동할 것임을 나타냅니다.

이 오픈 소스 모델의 핵심 하이라이트는 통합 설계 및 강력한 제어 기능입니다. 사용자의 음성 명령을 정확하게 이해할뿐만 아니라 음성 생성 프로세스를 유연하게 제어하여 사용자에게 전례없는 개인화 된 대화식 경험을 제공합니다. 이 디자인은 음성 상호 작용을보다 자연스럽고 매끄럽게 만들어 사용자 경험을 크게 향상시킵니다.

언어 지원 측면에서,이 모델은 우수한 다국어 처리 기능을 보여주고, 중국어, 영어, 일본어 및 기타 언어를 원활하게 전환 할 수 있으며, 언어 간 커뮤니케이션 시나리오에 쉽게 대처할 수 있습니다. 또한 광동어, 사슈안 방언 등과 같은 다양한 방언을 깊이 지원하여 음성 상호 작용을 일상 생활에 더 가깝게 만들고 더 인간적으로 만듭니다.

언어 처리 기능 외에도이 모델에는 훌륭한 음성 감정 제어 기능이 있습니다. 사용자는 행복, 슬픔 등과 같은 필요에 따라 감정적 인 목소리를 설정하여 AI 표현을보다 전염성있게 만들 수 있습니다. 동시에, 음성 속도와 리듬 스타일은 다양한 표현 요구를 충족시키기 위해 장면의 요구에 따라 조정할 수 있습니다. 더 놀라운 것은이 모델이 랩 및 허밍과 같은보다 창의적인 음성 형태를 지원하여 콘텐츠 제작에 무제한 가능성을 제공한다는 것입니다.

또한이 모델에는 음성 복제 기능이 있으며 사용자는이 기술을 통해 매우 개인화 된 음성 비서를 만들고 사운드의 "복제"및 "상속"을 깨닫게 할 수 있습니다. 이 기능은 음성 상호 작용 기술에 더 많은 응용 시나리오와 가능성을 제공합니다.

Jieyue의 오픈 소스와 같은 강력한 음성 모델은 의심 할 여지없이 전체 산업의 기술 진보와 응용 프로그램 혁신을 크게 촉진 할 것입니다. Voice AI 기술의 애플리케이션 임계 값을 크게 낮출뿐만 아니라 음성 상호 작용이 미래에 더 똑똑하고 자연스럽고 개인화되어 사람들의 일상 생활에 실제로 통합 될 것임을 나타냅니다.

프로젝트 주소 : https://github.com/stepfun-ai/step-audio/tree/main