최근 Alibaba Tongyi Labs가 시작한 Funaudiollm 프로젝트는 전적으로 새로운 시대의 오디오 세대 기술 시대입니다. 이 오픈 소스 프로젝트는 두 가지 핵심 모델 SenseVoice와 Cosyvoice를 통해 휴먼-컴퓨터 음성 상호 작용의 가능성을 재정의했습니다. Funaudiollm은 인공 지능 분야에서 알리바바의 깊은 축적을 보여줄뿐만 아니라 미래의 지능형 음성 기술 개발 방향을 지적합니다.
프로젝트의 음성 생성 엔진으로서 Cosyvoice의 기술 혁신은 인상적입니다. 150,000 시간의 다국어 데이터 교육 후,이 모델은 중국어, 영어, 일본어, 광동 및 한국의 5 개 언어를 부드럽게 생성했을뿐만 아니라 새로운 수준의 톤 시뮬레이션 및 정서적 제어에 도달했습니다. 고유 한 제로 샘플 음성 생성 기능을 통해 모델은 새로운 스피커의 음성에 신속하게 적응하여 개인화 된 음성 서비스에 무제한 가능성을 제공 할 수 있습니다. 특히 언어 간음 소리 합성에서 Cosyvoice는 놀라운 적응성을 보여 주어 글로벌 음성 상호 작용 애플리케이션을위한 길을 열었습니다.
SenseVoice는 음성 인식 기술의 새로운 벤치 마크를 나타냅니다. 400,000 시간의 다국어 데이터 교육 후, 인식 정확도는 기존 Whisper 모델을 50 개 이상의 언어로 능가합니다. 중국과 광동어 인식에서 정확도는 50%이상 증가하여 중국 시장의 지능형 음성 응용 프로그램에 혁신적인 혁신을 가져 왔습니다. SenseVoice가 감정 인식 및 오디오 이벤트 탐지 기능을 통합하여 기계가 언어를 이해할뿐만 아니라 스피커의 감정과 장면 정보를 이해할 수 있다고 언급 할 가치가 있습니다.

Funaudiollm은 다국어 실시간 번역에서 감정적 음성 대화, 대화식 팟 캐스트에서 스마트 오디오 북에 이르기까지 모든 분야에는 엄청난 상업적 가치가 포함되어 있습니다. Sensevoice의 정확한 인식, LLM 및 자연스러운 Cosyvoice 생성에 대한 강력한 이해를 결합 함으로써이 프로젝트는 진정한 엔드 투 엔드 음성 대화 형 경험을 달성합니다. 이 원활한 음성 음성 변환 능력은 언어 교차 커뮤니케이션 방식을 혁신하고 세계화 된 비즈니스 및 문화 교류에 새로운 가능성을 가져올 것입니다.
기술 구현 측면에서 Cosyvoice는 고급 음성 양자화 코딩 기술을 채택하여 생성 된 음성의 자연성과 유창성을 보장합니다. SenseVoice는 멀티 태스킹 학습 프레임 워크를 통해 자동 음성 인식, 언어 인식, 감정 인식 및 오디오 이벤트 탐지와 같은 기능을 통합 모델로 통합하여 시스템의 효율성과 정확성을 크게 향상시킵니다. 이 기술 아키텍처는 컴퓨팅 비용을 줄일뿐만 아니라 후속 모델 최적화 및 기능 확장을위한 좋은 기초를 제공합니다.
Alibaba Tongyi Laboratory의 열린 태도도 칭찬 할 만합니다. 프로젝트 팀은 ModelScope 및 Huggingf 이 오픈 소스 정신은 음성 기술 분야의 연구 및 응용 프로그램 개발을 크게 촉진하고 전체 산업에 긍정적 인 영향을 미칩니다.
프로젝트 주소 : https://github.com/funaudiollm