Oute AI는 LLAMA 아키텍처를 기반으로 단순화 된 TTS 모델 인 Outetts-0.1-350M이라는 새로운 텍스트 음성 합성 방법을 출시했습니다. 외부 어댑터가 필요하지 않으며 Wavtokenizer를 직접 사용하여 오디오 태그를 생성하며 제로 샘플 음성 복제 기능이있어 몇 초 만에 참조 오디오를 복사 할 수 있습니다. 모델의 매개 변수는 비교적 규모가 작지만 더 크고 복잡한 시스템과 비교할 수있는 성능을 달성 할 수 있으며 LLAMA.CPP와 호환되므로 실시간 응용 프로그램에 이상적입니다. 효율성과 사용 편의성으로 인해 개인화 된 비서, 오디오 북 및 컨텐츠 현지화와 같은 영역에서 광범위한 응용 프로그램 전망이 있습니다.
최근 Oute AI는 Outetts-0.1-350M이라는 새로운 텍스트 음성 연사 합성 방법을 발표했습니다. 이 접근법은 외부 어댑터 나 복잡한 아키텍처없이 순수한 언어 모델링을 사용하여 단순화 된 TTS 접근법을 제공합니다. Outetts-0.1-350M은 Llama 아키텍처를 기반으로하며 Wavtokenizer를 사용하여 오디오 태그를 직접 생성하여 프로세스를보다 효율적으로 만듭니다.
이 모델에는 제로 샘플 음성 복제가 있으며 몇 초 만에 참조 오디오를 복사 할 수 있습니다. Outetts-0.1-350M은 장치 성능을 위해 설계되었으며 LLAMA.CPP와 호환되므로 실시간 응용 프로그램에 이상적입니다. 이 모델은 비교적 작은 매개 변수 크기 (3 억 5 천만)를 가지고 있지만 성능은 더 크고 더 복잡한 TTS 시스템과 비슷합니다.
Outetts-0.1-350m의 접근성 및 효율성은 개인화 된 비서, 오디오 북 및 컨텐츠 현지화를 포함한 광범위한 응용 프로그램에 적합합니다. CC-BY 라이센스에 따라 출시 된 Oute AI는 고급 TTS 기술을 민주화하기 위해 다른 프로젝트에 대한 추가 실험과 통합을 장려합니다.

Outetts-0.1-350m의 출시는 텍스트 음성 기술의 주요 단계를 차지하며, 단순화 된 아키텍처를 활용하여 최소한의 계산 요구 사항을 가진 고품질의 음성 합성을 제공합니다. Llama 아키텍처를 통합하고 Wavtokenizer를 사용하며 복잡한 어댑터없이 제로 샘플 음성 복제를 수행 할 수 있으며, 이는 전통적인 TTS 모델과 구별됩니다.
주소 : https://www.outeai.com/blog/outetts-0.1-350m
Outetts-0.1-350m의 효율적이고 단순화 된 아키텍처 및 제로 샘플 음성 클로닝 기능은 텍스트 음성 기술에 새로운 가능성을 가져오고 개발자에게보다 편리하고 편리하고 사용하기 쉬운 도구를 제공합니다. 오픈 소스 특성은이 분야의 기술 개발과 응용 프로그램의 대중화를 촉진했습니다.