Download silero models - silero models Download de código fonte

cabeçalho

Modelos Silero
- Instalação e básico
- Fala para texto
  - Dependências
  - Pytorch
  - ONNX
  - Tensorflow
- Texto para fala
  - Modelos e alto -falantes
  - Dependências
  - Pytorch
  - Uso independente
  - Ssml
  - Línguas cirílicas
  - Indiomas indic
- Aprimoramento de texto
  - Dependências
  - Uso independente
- Denoise
  - Modelos
  - Dependências
  - Pytorch
  - Uso independente
- Perguntas frequentes
  - Wiki
  - Desempenho e qualidade
  - Adicionando novos idiomas
- Contato
  - Entre em contato
  - Consultas comerciais
- Citações
- Leitura adicional
  - Inglês
  - chinês
  - russo
- Doações

Modelos Silero

Modelos SILERO: Modelos e referências STT / TTS de nível corporativo pré-treinado.

O STT de nível empresarial simplificou refrescante (seriamente, veja benchmarks). Fornecemos qualidade comparável ao STT do Google (e às vezes até melhor) e não somos o Google.

Como um bônus:

Sem kaldi;
Sem compilação;
Nenhuma instrução de 20 etapas;

Também publicamos modelos TTS que atendem aos seguintes critérios:

Uso de uma linha;
Uma grande biblioteca de vozes;
Um pipeline de ponta a ponta;
Discurso que soa natural;
Não é necessária GPU ou treinamento;
Minimalismo e falta de dependências;
Mais rápido que em tempo real em um tópico da CPU (!!!);
Suporte para 16kHz e 8kHz fora da caixa;

Também publicamos um modelo para repunciação e recapitalização de texto que:

Insere letras maiúsculas e marcos básicos de pontuação, por exemplo, pontos, vírgulas, hífens, pontos de interrogação, pontos de exclamação e traços (para russo);
Trabalha para 4 idiomas (russo, inglês, alemão e espanhol) e podem ser estendidos;
Domínio-agnóstico por design e não com base em regras codificadas;
Possui métricas não triviais e consegue melhorar a legibilidade do texto;

Instalação e básico

Você pode basicamente usar nossos modelos em 3 sabores:

Via Pytorch Hub: torch.hub.load() ;
Via pip: pip install silero e import silero ;
Através do cache dos modelos e utilizadores necessários manualmente e modificando, se necessário;

Os modelos são baixados sob demanda pelo PIP e Pytorch Hub. Se você precisar de armazenamento em cache, faça -o manualmente ou invocando um modelo necessário uma vez (ele será baixado para uma pasta de cache). Consulte esses documentos para obter mais informações.

O pacote Pytorch Hub e Pip são baseados no mesmo código. Todos os exemplos da torch.hub.load podem ser usados com o pacote PIP por meio desta alteração básica:

 # before
torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
               model = 'silero_stt' ,  # or silero_tts or silero_te
               ** kwargs )

# after
from silero import silero_stt , silero_tts , silero_te
silero_stt ( ** kwargs )

Fala para texto

Todos os modelos fornecidos estão listados no arquivo models.yml. Quaisquer metadados e versões mais recentes serão adicionados lá.

Screenshot_1

Atualmente, fornecemos os seguintes pontos de verificação:

	Pytorch	ONNX	Quantização	Qualidade
Inglês ( `en_v6` )	✔️	✔️	✔️	link
Inglês ( `en_v5` )	✔️	✔️	✔️	link
Alemão ( `de_v4` )	✔️	✔️	⌛	link
Inglês ( `en_v3` )	✔️	✔️	✔️	link
Alemão ( `de_v3` )	✔️	⌛	⌛	link
Alemão ( `de_v1` )	✔️	✔️	⌛	link
Espanhol ( `es_v1` )	✔️	✔️	⌛	link
Ucraniano ( `ua_v3` )	✔️	✔️	✔️	N / D

Flavores modelo:

	jit	jit	jit	jit	jit_q	jit_q	ONNX	ONNX	ONNX	ONNX
	xsmall	pequeno	grande	XLARGE	xsmall	pequeno	xsmall	pequeno	grande	XLARGE
English `en_v6`		✔️		✔️		✔️		✔️		✔️
Inglês `en_v5`		✔️		✔️		✔️		✔️		✔️
Inglês `en_v4_0`			✔️						✔️
Inglês `en_v3`	✔️	✔️	✔️		✔️	✔️	✔️	✔️	✔️
`de_v4` alemão			✔️						✔️
`de_v3` alemão			✔️
`de_v1` alemão		✔️					✔️
Espanhol `es_v1`		✔️					✔️
Ucraniano `ua_v3`		✔️			✔️		✔️

Dependências

Todos os exemplos:
- torch , 1,8+ (usado para clonar o repo em exemplos Tensorflow e Onnx), interrompendo as mudanças para versões mais antigas que 1.6
- torchaudio , a versão mais recente ligada a Pytorch deve apenas funcionar
- omegaconf , mais recente deve funcionar
Dependências adicionais para exemplos de ONNX:
- onnx , mais recente deve funcionar
- onnxruntime , mais recente deve funcionar
Adicional para exemplos de tensorflow:
- tensorflow , mais recente deve funcionar
- tensorflow_hub , mais recente deve funcionar

Consulte o Colab fornecido para obter detalhes para cada exemplo abaixo. Todos os exemplos são mantidos para trabalhar com as mais recentes versões principais embaladas das bibliotecas instaladas.

Pytorch

 import torch
import zipfile
import torchaudio
from glob import glob

device = torch . device ( 'cpu' )  # gpu also works, but our models are fast enough for CPU
model , decoder , utils = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                       model = 'silero_stt' ,
                                       language = 'en' , # also available 'de', 'es'
                                       device = device )
( read_batch , split_into_batches ,
 read_audio , prepare_model_input ) = utils  # see function signature for details

# download a single file in any format compatible with TorchAudio
torch . hub . download_url_to_file ( 'https://opus-codec.org/static/examples/samples/speech_orig.wav' ,
                               dst = 'speech_orig.wav' , progress = True )
test_files = glob ( 'speech_orig.wav' )
batches = split_into_batches ( test_files , batch_size = 10 )
input = prepare_model_input ( read_batch ( batches [ 0 ]),
                            device = device )

output = model ( input )
for example in output :
    print ( decoder ( example . cpu ()))

ONNX

Nosso modelo será executado em qualquer lugar que possa importar o modelo ONNX ou que suporta o tempo de execução do ONNX.

 import onnx
import torch
import onnxruntime
from omegaconf import OmegaConf

language = 'en' # also available 'de', 'es'

# load provided utils
_ , decoder , utils = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' , model = 'silero_stt' , language = language )
( read_batch , split_into_batches ,
 read_audio , prepare_model_input ) = utils

# see available models
torch . hub . download_url_to_file ( 'https://raw.githubusercontent.com/snakers4/silero-models/master/models.yml' , 'models.yml' )
models = OmegaConf . load ( 'models.yml' )
available_languages = list ( models . stt_models . keys ())
assert language in available_languages

# load the actual ONNX model
torch . hub . download_url_to_file ( models . stt_models . en . latest . onnx , 'model.onnx' , progress = True )
onnx_model = onnx . load ( 'model.onnx' )
onnx . checker . check_model ( onnx_model )
ort_session = onnxruntime . InferenceSession ( 'model.onnx' )

# download a single file in any format compatible with TorchAudio
torch . hub . download_url_to_file ( 'https://opus-codec.org/static/examples/samples/speech_orig.wav' , dst = 'speech_orig.wav' , progress = True )
test_files = [ 'speech_orig.wav' ]
batches = split_into_batches ( test_files , batch_size = 10 )
input = prepare_model_input ( read_batch ( batches [ 0 ]))

# actual ONNX inference and decoding
onnx_input = input . detach (). cpu (). numpy ()
ort_inputs = { 'input' : onnx_input }
ort_outs = ort_session . run ( None , ort_inputs )
decoded = decoder ( torch . Tensor ( ort_outs [ 0 ])[ 0 ])
print ( decoded )

Tensorflow

Exemplo de Model Saved

 import os
import torch
import subprocess
import tensorflow as tf
import tensorflow_hub as tf_hub
from omegaconf import OmegaConf

language = 'en' # also available 'de', 'es'

# load provided utils using torch.hub for brevity
_ , decoder , utils = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' , model = 'silero_stt' , language = language )
( read_batch , split_into_batches ,
 read_audio , prepare_model_input ) = utils

# see available models
torch . hub . download_url_to_file ( 'https://raw.githubusercontent.com/snakers4/silero-models/master/models.yml' , 'models.yml' )
models = OmegaConf . load ( 'models.yml' )
available_languages = list ( models . stt_models . keys ())
assert language in available_languages

# load the actual tf model
torch . hub . download_url_to_file ( models . stt_models . en . latest . tf , 'tf_model.tar.gz' )
subprocess . run ( 'rm -rf tf_model && mkdir tf_model && tar xzfv tf_model.tar.gz -C tf_model' ,  shell = True , check = True )
tf_model = tf . saved_model . load ( 'tf_model' )

# download a single file in any format compatible with TorchAudio
torch . hub . download_url_to_file ( 'https://opus-codec.org/static/examples/samples/speech_orig.wav' , dst = 'speech_orig.wav' , progress = True )
test_files = [ 'speech_orig.wav' ]
batches = split_into_batches ( test_files , batch_size = 10 )
input = prepare_model_input ( read_batch ( batches [ 0 ]))

# tf inference
res = tf_model . signatures [ "serving_default" ]( tf . constant ( input . numpy ()))[ 'output_0' ]
print ( decoder ( torch . Tensor ( res . numpy ())[ 0 ]))

Texto para fala

Modelos e alto -falantes

Todos os modelos fornecidos estão listados no arquivo models.yml. Quaisquer metadados e versões mais recentes serão adicionados lá.

V4

Os modelos V4 suportam SSML. Veja também os exemplos do COLAB para o uso principal de tags do SSML.

EU IA	Alto -falantes	Auto-estresse	Linguagem	Sr
`v4_ru`	`aidar` , `baya` , `kseniya` , `xenia` , `eugene` , `random`	sim	`ru` (russo)	`8000` , `24000` , `48000`
`v4_cyrillic`	`b_ava` , `marat_tt` , `kalmyk_erdni` ...	não	`cyrillic` (Avar, Tatar, Kalmyk, ...)	`8000` , `24000` , `48000`
`v4_ua`	`mykyta` , `random`	não	`ua` (ucraniano)	`8000` , `24000` , `48000`
`v4_uz`	`dilnavoz`	não	`uz` (uzbek)	`8000` , `24000` , `48000`
`v4_indic`	`hindi_male` , `hindi_female` , ..., `random`	não	`indic` (hindi, telugu, ...)	`8000` , `24000` , `48000`

V3

Os modelos V3 suportam SSML. Veja também os exemplos do COLAB para o uso principal de tags do SSML.

EU IA	Alto -falantes	Auto-estresse	Linguagem	Sr
`v3_en`	`en_0` , `en_1` , ..., `en_117` , `random`	não	`en` (inglês)	`8000` , `24000` , `48000`
`v3_en_indic`	`tamil_female` , ..., `assamese_male` , `random`	não	`en` (inglês)	`8000` , `24000` , `48000`
`v3_de`	`eva_k` , ..., `karlsson` , `random`	não	`de` (alemão)	`8000` , `24000` , `48000`
`v3_es`	`es_0` , `es_1` , `es_2` , `random`	não	`es` (espanhol)	`8000` , `24000` , `48000`
`v3_fr`	`fr_0` , ..., `fr_5` , `random`	não	`fr` (francês)	`8000` , `24000` , `48000`
`v3_indic`	`hindi_male` , `hindi_female` , ..., `random`	não	`indic` (hindi, telugu, ...)	`8000` , `24000` , `48000`

Dependências

Dependências básicas para exemplos de colab:

torch , 1.10+ para modelos V3/ 2.0+ para modelos V4;
torchaudio , versão mais recente vinculada ao Pytorch, deve funcionar (exigido apenas porque os modelos são hospedados em conjunto com o STT, não é necessário para o trabalho);
omegaconf , mais recente (também pode ser removido, se você não carregar todas as configurações);

Pytorch

 # V4
import torch

language = 'ru'
model_id = 'v4_ru'
sample_rate = 48000
speaker = 'xenia'
device = torch . device ( 'cpu' )

model , example_text = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                     model = 'silero_tts' ,
                                     language = language ,
                                     speaker = model_id )
model . to ( device )  # gpu or cpu

audio = model . apply_tts ( text = example_text ,
                        speaker = speaker ,
                        sample_rate = sample_rate )

Uso independente

O uso independente requer apenas o Pytorch 1.10+ e a biblioteca padrão do Python;
Consulte os exemplos detalhados no Colab;

 # V4
import os
import torch

device = torch . device ( 'cpu' )
torch . set_num_threads ( 4 )
local_file = 'model.pt'

if not os . path . isfile ( local_file ):
    torch . hub . download_url_to_file ( 'https://models.silero.ai/models/tts/ru/v4_ru.pt' ,
                                   local_file )  

model = torch . package . PackageImporter ( local_file ). load_pickle ( "tts_models" , "model" )
model . to ( device )

example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра кедров.'
sample_rate = 48000
speaker = 'baya'

audio_paths = model . save_wav ( text = example_text ,
                             speaker = speaker ,
                             sample_rate = sample_rate )

Ssml

Confira nossa página do Wiki TTS.

Línguas cirílicas

Tokenset suportado: !,-.:?iµöабвгдежзийклмнопрстуфхцчшщъыьэюяёђѓєіјњћќўѳғҕҗҙқҡңҥҫүұҳҷһӏӑӓӕӗәӝӟӥӧөӱӳӵӹ

SOPAFER_ID	Linguagem	Gênero
b_ava	Avar	F
b_bashkir	Bashkir	M
b_bulb	búlgaro	M
b_bulc	búlgaro	M
b_che	CHECHEN	M
B_CV	Chuvash	M
cv_ekaterina	Chuvash	F
B_MYV	Erzya	M
b_kalmyk	Kalmyk	M
b_krc	Karachay-Balkar	M
kz_m1	Cazaque	M
kz_m2	Cazaque	M
kz_f3	Cazaque	F
kz_f1	Cazaque	F
kz_f2	Cazaque	F
b_kjh	Khakas	F
B_KPV	Komi-Ziryan	M
B_LEZ	Lezghian	M
B_MHR	Mari	F
b_mrj	Mari High	M
b_nog	Nogai	F
chefe	Ossético	M
b_ru	russo	M
b_tat	Tatar	M
marat_tt	Tatar	M
b_tyv	Tuviniano	M
b_udm	Udmurt	M
b_uzb	Uzbek	M
B_SAH	Yakut	M
Kalmyk_erdni	Kalmyk	M
Kalmyk_delghir	Kalmyk	F

Indiomas indic

Exemplo

(!!!) Todas as frases de entrada devem ser romanizadas no formato ISO usando aksharamukha . Um exemplo para hindi :

 # V3
import torch
from aksharamukha import transliterate

# Loading model
model , example_text = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                     model = 'silero_tts' ,
                                     language = 'indic' ,
                                     speaker = 'v4_indic' )

orig_text = "प्रसिद्द कबीर अध्येता, पुरुषोत्तम अग्रवाल का यह शोध आलेख, उस रामानंद की खोज करता है"
roman_text = transliterate . process ( 'Devanagari' , 'ISO' , orig_text )
print ( roman_text )

audio = model . apply_tts ( roman_text ,
                        speaker = 'hindi_male' )

Idiomas suportados

Linguagem	Alto -falantes	Função de romanização
hindi	`hindi_female` , `hindi_male`	`transliterate.process('Devanagari', 'ISO', orig_text)`
malaiala	`malayalam_female` , `malayalam_male`	`transliterate.process('Malayalam', 'ISO', orig_text)`
Manipuri	`manipuri_female`	`transliterate.process('Bengali', 'ISO', orig_text)`
bengali	`bengali_female` , `bengali_male`	`transliterate.process('Bengali', 'ISO', orig_text)`
Rajasthani	`rajasthani_female` , `rajasthani_female`	`transliterate.process('Devanagari', 'ISO', orig_text)`
tâmil	`tamil_female` , `tamil_male`	`transliterate.process('Tamil', 'ISO', orig_text, pre_options=['TamilTranscribe'])`
Telugu	`telugu_female` , `telugu_male`	`transliterate.process('Telugu', 'ISO', orig_text)`
Gujarati	`gujarati_female` , `gujarati_male`	`transliterate.process('Gujarati', 'ISO', orig_text)`
Kannada	`kannada_female` , `kannada_male`	`transliterate.process('Kannada', 'ISO', orig_text)`

Aprimoramento de texto

Idiomas	Quantização	Qualidade	Colab
'en', 'de', 'ru', 'es'	✔️	link

Dependências

Dependências básicas para exemplos de colab:

torch , 1,9+;
pyyaml , mas está instalado com a própria tocha

Uso independente

O uso independente requer apenas o Pytorch 1.9+ e a biblioteca padrão do Python;
Consulte os exemplos detalhados no Colab;

 import torch

model , example_texts , languages , punct , apply_te = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                                                  model = 'silero_te' )

input_text = input ( 'Enter input text n ' )
apply_te ( input_text , lan = 'en' )

Denoise

Os modelos de denoise tentam reduzir o ruído de fundo, juntamente com vários artefatos, como reverb, recorte, filtros de passagens altas/lutas etc., enquanto tentam preservar e/ou aprimorar a fala. Eles também tentam aumentar a qualidade do áudio e aumentar a taxa de amostragem da entrada em até 48kHz.

Modelos

Todos os modelos fornecidos estão listados no arquivo models.yml.

Modelo	Jit	Entrada real sr	Entrada sr	Saída sr
`small_slow`	✔️	`8000` , `16000` , `24000` , `44100` , `48000`	`24000`	`48000`
`large_fast`	✔️	`8000` , `16000` , `24000` , `44100` , `48000`	`24000`	`48000`
`small_fast`	✔️	`8000` , `16000` , `24000` , `44100` , `48000`	`24000`	`48000`

Dependências

Dependências básicas para exemplos de colab:

torch , 2.0+;
torchaudio , versão mais recente vinculada a Pytorch, deve funcionar;
omegaconf , mais recente (também pode ser removido, se você não carregar todas as configurações).

Pytorch

 import torch

name = 'small_slow'
device = torch . device ( 'cpu' )
model , samples , utils = torch . hub . load (
  repo_or_dir = 'snakers4/silero-models' ,
  model = 'silero_denoise' ,
  name = name ,
  device = device )
( read_audio , save_audio , denoise ) = utils

i = 0
torch . hub . download_url_to_file (
  samples [ i ],
  dst = f'sample { i } .wav' ,
  progress = True
)
audio_path = f'sample { i } .wav'
audio = read_audio ( audio_path ). to ( device )
output = model ( audio )
save_audio ( f'result { i } .wav' , output . squeeze ( 1 ). cpu ())

i = 1
torch . hub . download_url_to_file (
  samples [ i ],
  dst = f'sample { i } .wav' ,
  progress = True
)
output , sr = denoise ( model , f'sample { i } .wav' , f'result { i } .wav' , device = 'cpu' )

Uso independente

 import os
import torch

device = torch . device ( 'cpu' )
torch . set_num_threads ( 4 )
local_file = 'model.pt'

if not os . path . isfile ( local_file ):
    torch . hub . download_url_to_file ( 'https://models.silero.ai/denoise_models/sns_latest.jit' ,
                                   local_file )  

model = torch . jit . load ( local_file )
torch . _C . _jit_set_profiling_mode ( False ) 
torch . set_grad_enabled ( False )
model . to ( device )

a = torch . rand (( 1 , 48000 ))
a = a . to ( device )
out = model ( a )

Perguntas frequentes

Wiki

Confira também nosso wiki.

Desempenho e qualidade

Consulte estas seções wiki:

Benchmarks de qualidade
Benchmarks de desempenho

Adicionando novos idiomas

Por favor, consulte aqui.

Contato

Entre em contato

Experimente nossos modelos, crie um problema, participe do nosso bate -papo, envie um e -mail e leia as últimas notícias.

Consultas comerciais

Consulte nosso wiki e a página de licenciamento e camadas para obter informações relevantes e envie um email.

Citações

 @misc { Silero Models,
  author = { Silero Team } ,
  title = { Silero Models: pre-trained enterprise-grade STT / TTS models and benchmarks } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-models} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

Leitura adicional

Inglês

STT:
- Em direção a um momento de imagenet para o texto para texto-link
- Uma crítica dos profissionais de fala para texto à indústria e da academia-link
- Modelos STT modernos no nível do Google lançados - Link
TTS:
- Modelos multilíngues de texto em fala para idiomas indicadores-link
- Nossa nova síntese de fala pública em qualidade super alta, 10x mais rápida e mais estável - link
- Alta qualidade Text-to-fala tornou acessível, simples e rápido-link
Vad:
- Um detector de voz para governar todos eles - link
- Detector de atividades de voz portátil moderna liberada - link
Aprimoramento do texto:
- Publicamos um modelo para repunciação e recapitalização de texto para quatro idiomas - Link

chinês

STT:
- 迈向语音识别领域的 Imagenet 时刻 - Link
- 语音领域学术界和工业界的七宗罪 - Link

russo

STT
- OpenAi ршити р познанeter р ч ч ч ч 12! Рhзиираpel м та л лэто… - link
- Нши с сииы длеллitivamente сл слллл sentido р познанания р ч с дозознан п позознананntas - link
- Telegram -бот Silero бесл Qual перев оит р б б бле бле блее бллн бллн бллн бллнн бллнн бллнн блл furm -беен бле бллн бллн бленн блелн блес о вле блен блес о бле блел блеенн блес беен блес б беелн блеллнод беен блеллн landram.
- Бел Qualvia пзз sentido
- Поолние онноnter н м пннобнобновновния моделй й познананntas
- Сжимаем трансформеры: простые, универсальные и прикладные способы cделать их компактными и быстрыми - link
- Você
- Ы о оббitante
- Понижжж баарьеры н х х в в в в в в в в в в в в в в в в в в в в в в в в в в в в в
- Оромный от<ыы датас р кыы оыы дыы оыы оыы оыы оыы оыы оыыы â € ды ды выы оыы оыы о о direção ды ды выы орыы â € ды ды ыйыы о peso
- Насоferir - link
- O link de fala para texto-Link
- Spean-to-text-Link
TTS:
- Теперь наш синтез также доступен в виде бота в Телеграме - link
- Можж ли синтез р ч о с с с с с с с с с с с с с с с с с с с с с с с с с с с с с с с с land - link
- Теulas
- Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек - link
- Ииазз с с зоооо land
- Ыы сееcente
- Ыы о ббitante
Vad:
- Н п п п п п пблллный детеоncer
- А и и и и а и и а аы а а аыозшшш а иоошшш и а аызшш и а аызшш и а иызшш и а иызшш и а иозшш а а иызшш а а иызшш а а иызшш а а иызшш а а иызшш а а иызшш а а и а а а а а а а а а а а а а а а а а а а а а а а а а peso? '
- Модеich
- Ы о оббitante
Aprimoramento do texto:
- В о в в в в в в в в в в в в в в в в в в в land
- Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках - link

Doações

Por favor, use o botão "Patrocinador".

Expandir