Download WhisperSpeech - Download do código -fonte WhisperSpeech

WhisperSpeech

Código-Fonte de IA

1.0.0

Baixar

Whisperspeech

Se você tiver dúvidas ou quiser ajudar, pode nos encontrar no canal de geração de áudio #no servidor Laion Discord.

Um sistema de texto para fala em código aberto criado invertendo o Whisper. Anteriormente conhecido como spear-tts-pytorch .

Queremos que esse modelo seja como difusão estável, mas para a fala - poderosa e facilmente personalizável.

Estamos trabalhando apenas com gravações de fala devidamente licenciadas e todo o código é de código aberto, para que o modelo seja sempre seguro de usar para aplicações comerciais.

Atualmente, os modelos são treinados no conjunto de dados da LibreLight ingles. No próximo lançamento, queremos atingir vários idiomas (Whisper e Codec são ambos multilanguage).

Amostra da voz sintetizada:

Whisperspeech-sample.mp4

Atualização de progresso [2024-01-29]

Treminamos com sucesso um tiny modelo S2A em um conjunto de dados PL+PL+FR e ele pode fazer clonagem de voz em francês:

FR-VOICE-CLONE-2.MP4

FR-VOICE-CLONE-1.MP4

Conseguimos fazer isso com tokens semânticos congelados que só foram treinados em inglês e polimento. Isso apóia a ideia de que poderemos treinar um único modelo de token semântico para apoiar todos os idiomas do mundo. Provavelmente, mesmo os que atualmente não são bem suportados pelo modelo Whisper. Fique atento para mais atualizações nesta frente. :)

Atualização de progresso [2024-01-18]

Passamos a última semana otimizando o desempenho da inferência. Integramos torch.compile , adicionamos KV-Caching e sintonizamos algumas das camadas-agora estamos trabalhando mais de 12x mais rápido que em tempo real em um consumidor 4090!

Podemos misturar idiomas em uma única frase (aqui os nomes de projetos em inglês destacados são perfeitamente misturados no discurso polonês):

Para o idiota Pierwszy Wielojęzycznego Whisper Speech Modelu zamieniającego tekst na mowę, który Collabora i Laion nauczyli na superkomputerze Jewels .

PL-en-mix.mp4

Também adicionamos uma maneira fácil de testar a clonagem de voz. Aqui está uma amostra de voz clonada de um discurso famoso de Winston Churchill (o rádio estático é um recurso, não um bug;) - faz parte da gravação de referência):

em cloning.mp4

Você pode testar tudo isso no COLAB (otimizamos as dependências, então agora leva menos de 30 segundos para instalar). Um espaço de abraço está chegando em breve.

Atualização de progresso [2024-01-10]

Empurramos um novo modelo SD S2A que é muito mais rápido, enquanto ainda gera discursos de alta qualidade. Também adicionamos um exemplo de clonagem de voz com base em um arquivo de áudio de referência.

Como sempre, você pode conferir nosso colab para experimentar você mesmo!

Atualização de progresso [2023-12-10]

Outro trio de modelos, desta vez eles suportam vários idiomas (inglês e polimento). Aqui estão duas novas amostras para uma prévia. Você pode conferir nosso colab para experimentar você mesmo!

Discurso em inglês, voz feminina (transferida de um conjunto de dados de idioma polonês):

Whisperspeech-sample.mp4

Uma amostra polonesa, voz masculina:

Whisperspeech-sample-pl.mp4

As atualizações de progresso mais antigas estão arquivadas aqui

Downloads

Incentivamos você a começar com o link do Google Colab acima ou executar o notebook fornecido localmente. Se você deseja baixar manualmente ou treinar os modelos do zero, os modelos pré-treinados com Whisperspeech e os conjuntos de dados convertidos estarão disponíveis no HuggingFace.

Roteiro

Reúna um conjunto de dados de fala emotivo maior
Descubra uma maneira de condicionar a geração sobre emoções e prosódia
Crie um esforço da comunidade para reunir discursos licenciados gratuitamente em vários idiomas
Trem modelos finais de várias linguagens

Arquitetura

A arquitetura geral é semelhante ao Audiolm, Spear TTS do Google e MusicGen da Meta. Evitamos a síndrome do NIH e a construímos em cima de poderosos modelos de código aberto: sussurrar do OpenAi para gerar tokens semânticos e realizar transcrição, codec de meta para modelagem acústica e vocos da Charactr Inc como vocoder de alta qualidade.

Demos duas apresentações aprofundadas no Whisperspeech. O primeiro fala sobre os desafios do treinamento em larga escala:

Truques aprendidos com modelos de Whisperspeech de escala até 80k+ horas de fala - gravação de vídeo por Jakub Cłapa, Collabora

O outro vai um pouco mais nas escolhas arquitetônicas que fizemos:

Projetos de texto para fala em código aberto: Whisperspeech-Discussão em profundidade

Sussurro para modelar fichas semânticas

Utilizamos o bloco de codificadores Whisper Openai para gerar incorporações que quantizamos para obter tokens semânticos.

Se o idioma já for suportado pelo Whisper, esse processo exigir apenas arquivos de áudio (sem transcrições de verdade).

Usando Whisper para diagrama de extração de token semântico

Encodec para modelar tokens acústicos

Usamos o Encodec para modelar a forma de onda de áudio. Fora da caixa, oferece qualidade razoável a 1,5kbps e podemos levar isso à alta qualidade usando o VOCOS-um vocoder pré-levado em tokens do Encodec.

Diagrama de blocos do Codec

Apreciação

Logotipo colabora LOION LOION

Este trabalho não seria possível sem os generosos patrocínios de:

Colabora - Desenvolvimento de Código e Treinamento para Modelo
Laion - construção comunitária e conjuntos de dados (agradecimentos especiais a
Jülich Supercomputing Center - Juwels Booster Supercomputer

Agradecemos o Gauss Center for Supercomputing EV (www.gauss-centre.eu) por financiar parte deste trabalho, fornecendo tempo de computação através do Instituto de Computação de John von Neumann para computação (NIC) no GCS Supercomputer Oferece, por meio de computadores, o Modelatomputing da Jülich em computação.

Gostaríamos de agradecer também a colaboradores individuais por sua grande ajuda na construção deste modelo:

Inevitável-2031 ( qwerty_qwer na discórdia) para curadoria de dados

Consultoria

Estamos disponíveis para ajudá -lo com projetos de IA de código aberto e proprietários. Você pode entrar em contato conosco no site da Collabora ou na discórdia (e)

Citações

Contamos com muitos projetos incríveis de código aberto e trabalhos de pesquisa:

 @article { SpearTTS ,
  title = { Speak, Read and Prompt: High-Fidelity Text-to-Speech with Minimal Supervision } ,
  url = { https://arxiv.org/abs/2302.03540 } ,
  author = { Kharitonov, Eugene and Vincent, Damien and Borsos, Zalán and Marinier, Raphaël and Girgin, Sertan and Pietquin, Olivier and Sharifi, Matt and Tagliasacchi, Marco and Zeghidour, Neil } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { MusicGen ,
  title = { Simple and Controllable Music Generation } , 
  url = { https://arxiv.org/abs/2306.05284 } ,
  author = { Jade Copet and Felix Kreuk and Itai Gat and Tal Remez and David Kant and Gabriel Synnaeve and Yossi Adi and Alexandre Défossez } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

 @article { Whisper
  title = { Robust Speech Recognition via Large-Scale Weak Supervision } ,
  url = { https://arxiv.org/abs/2212.04356 } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { EnCodec
  title = { High Fidelity Neural Audio Compression } ,
  url = { https://arxiv.org/abs/2210.13438 } ,
  author = { Défossez, Alexandre and Copet, Jade and Synnaeve, Gabriel and Adi, Yossi } ,
  publisher = { arXiv } ,
  year = { 2022 } ,
}

 @article { Vocos
  title = { Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis } , 
  url = { https://arxiv.org/abs/2306.00814 } ,
  author = { Hubert Siuzdak } ,
  publisher = { arXiv } ,
  year = { 2023 } ,
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Código-Fonte de IA
Data da Última Atualização 2025-08-21
tamanho 7.88MB
Vindo de Github

Aplicativos Relacionados

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
ML stack

Código-Fonte de IA

1.0.0
awesome free chatgpt

Código-Fonte de IA

1.0.0
pywin_contextmenu

Código-Fonte de IA

Version update
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos