오늘날 기술의 빠른 발전으로 인공 지능은 우리 삶의 모든 측면에 침투했습니다. Smart Voice Assistant에서 다양한 자동화 서비스에 이르기까지 AI는 전례없는 방식으로 우리의 삶을 바꾸고 있습니다. 오늘은 QWEN2.5 모델을 기반으로 한 효율적인 텍스트 음성 음성 시스템 인 Spark-TTS 인 Spark-TTS를 소개하고 싶습니다. 그것은 당신의 목소리를 "복제"할뿐만 아니라 당신의 필요에 따라 새로운 사운드를 "사용자 정의"할 수 있습니다! 놀랍게 들리지 않습니까?

Spark-tts 란 무엇입니까? Spark-TTS는 핵심이 단일 스트림 음성 코덱 인 Bicodec 인 TTS (Text-To-Steeech) 시스템입니다. 이 코덱은 음성을 두 개의 보완적인 "음성 토큰"으로 분해 할 수 있습니다. 하나는 언어 컨텐츠를 캡처하는 데 사용되는 비트 속도가 낮은 의미 론적 토큰입니다. 다른 하나는 톤, 톤 등과 같은 스피커의 속성을 캡처하는 데 사용되는 고정 길이의 글로벌 토큰입니다.이 별도의 표현 방법은 강력한 QWEN2.5 언어 모델과 "사고 체인"(COT)이라는 세대 방법을 결합하여 Spark-TTS가 거친 입자 (예 : 성별, 말하기 스타일) (예 : 선정 속도, 말하기, 말하기 속도)로의 제어를 달성 할 수 있도록합니다. 다시 말해, 간단한 지시 사항을 사용하여 Spark-TTS가 정확히 상상했던 사운드를 생성 할 수 있습니다!

Spark-Tts의 "Super Powers"Spark-TTS의 큰 장점은 "Super Powers"입니다. 즉, 참조 오디오를 제공하면되며 Spark-TTS는 새로운 사운드를 직접 생성 할 수 있으며 사운드를 원하는대로 정확하게 조정할 수 있습니다. 예를 들어, "남성,베이스, 느린"사운드를 생성하도록 요청할 수 있으며 스파크 TT는 작업을 정확하게 완료 할 수 있습니다. 이것은 이전에 거의 불가능했지만 Spark-TTS가 해냈습니다!
또한 Spark -TTS에는 "비밀 무기"인 Voxbox도 있습니다. 이것은 성별, 피치 및 말하기 속도와 같은 다양한 속성의 주석을 다루는 10 만 시간의 음성 데이터를 갖춘 신중하게 선별 된 오픈 소스 데이터 세트입니다. 이 데이터 세트는 언어 합성에 대한 연구를위한 표준화 된 벤치 마크를 제공하여 연구원들이 실험과 비교를 더 잘 수행 할 수있게합니다.
기술 세부 사항 Spark-TT의 기술적 세부 사항은 약간 복잡하게 들릴 수 있지만 가장 일반적인 방식으로 설명하겠습니다. 첫째, Bicodec은 Spark-TTS의 핵심이며, "벡터 양자화"(vq)라는 기술을 통해 음성 신호를 개별 토큰으로 변환합니다. 이 토큰은 음성의 "디지털 지문"과 같으며 언어 모델에 의해 이해되고 생성 될 수 있습니다. 그런 다음 Spark-TTS는 QWEN2.5 언어 모델의 강력한 기능을 사용하여 이러한 토큰을 "Think Chain"생성 방법을 통해 완전한 음성 신호로 결합합니다.
실제 응용 분야에서 Spark-TTS에는 샘플 모드가 0과 제어 가능한 생성 모드의 두 가지 작업 모드가 있습니다. 제로 샘플 모드에서 Spark-TTS는 참조 오디오를 기반으로 새로운 사운드를 생성 할 수 있습니다. 제어 가능한 생성 모드에서 속성 태그 또는 특정 값을 지정하여 요구 사항을 완전히 충족시키는 사운드를 만들 수 있습니다. 예를 들어, "여성, 높은 피치, 빠른"사운드를 요청할 수 있으며 스파크 TT는 작업을 정확하게 완료 할 수 있습니다.
Spark-TT의 실제 적용을위한 응용 시나리오는 매우 광범위합니다. 예를 들어, Smart Voice Assistant 분야에서 Spark-TTS는 사용자의 선호도에 따라 개인화 된 음성을 생성 할 수있어 사용자가 실제 사람과 의사 소통하는 것처럼 느껴집니다. 오디오 북 분야에서 Spark-TT는 텍스트 내용을 기반으로 다양한 스타일의 사운드를 생성 할 수있어 청취자가 더 풍부한 청각 경험을 가질 수 있습니다. 또한 Spark-TTS는 언어 합성 연구에 사용될 수 있으며, 연구자들은 언어 합성 기술을 더 잘 이해하고 개선 할 수 있도록 도와줍니다.
미래의 전망 Spark-tts가 큰 돌파구를 만들었지 만 여전히 개선 할 영역이 있습니다. 예를 들어, 제로 샘플 사운드 클론에서 Spark-TTS의 스피커 유사성을 개선해야합니다. 또한 Spark-TTS는 현재 글로벌 토큰과 시맨틱 토큰 사이의 분리에 대한 추가 제약을 부과하지 않으므로 사운드의 다양성과 특성에 영향을 줄 수 있습니다. 그러나 연구자들은 이미 톤의 섭동을 도입하여 소리의 다양성과 특성을 높이는 것과 같은 이러한 문제를 해결하는 새로운 방법을 모색하고 있습니다.
Spark-TTS는 제로 샘플 사운드 클로닝을 가능하게 할뿐만 아니라 사용자 요구에 따라 새로운 사운드를 생성하는 매우 유망한 기술입니다. 외모를 통해 우리는 음성 합성 기술의 무한한 가능성을 볼 수 있습니다. 앞으로 기술의 지속적인 발전으로 Spark-TTS는 더 많은 분야에 적용될 것으로 예상되어 우리의 삶에 더 편리하고 재미를 가져올 것으로 예상됩니다.
마지막으로 Spark-TTS에 관심이 있다면 오픈 소스 코드 및 오디오 샘플에 액세스 하고이 마법 기술을 직접 경험할 수 있습니다. 날 믿어, 그것은 매우 흥미로운 경험이 될 것입니다!
프로젝트 및 데모 : https://sparkaudio.github.io/spark-tts/
github : https : //github.com/sparkaudio/spark-tts
종이 : https://arxiv.org/pdf/2503.01710