Téléchargement silero models - Téléchargement du code source silero models

tête

Modèles SILERO
- Installation et bases
- Discours à texte
  - Dépendances
  - Pytorch
  - Onnx
  - Tensorflow
- Texte vocal
  - Modèles et haut-parleurs
  - Dépendances
  - Pytorch
  - Utilisation autonome
  - SSML
  - Langues cyrilliques
  - Langues indicales
- Amélioration du texte
  - Dépendances
  - Utilisation autonome
- Débauche
  - Modèles
  - Dépendances
  - Pytorch
  - Utilisation autonome
- FAQ
  - Wiki
  - Performance et qualité
  - Ajout de nouvelles langues
- Contact
  - Entrer en contact
  - Enquêtes commerciales
- Citations
- Dès la lecture
  - Anglais
  - Chinois
  - russe
- Dons

Modèles SILERO

Modèles SILERO: modèles STT / TTS de qualité pré-formés et références.

STT de qualité d'entreprise a été rafraîchissante et simple (sérieusement, voir les repères). Nous fournissons une qualité comparable à la STT de Google (et parfois encore meilleure) et nous ne sommes pas Google.

En prime:

Pas de kaldi;
Aucune compilation;
Aucune instruction en 20 étapes;

Nous avons également publié des modèles TTS qui satisfont aux critères suivants:

Utilisation d'une ligne;
Une grande bibliothèque de voix;
Un pipeline de bout en bout;
Discours à consonance naturelle;
Aucun GPU ni formation requis;
Minimalisme et manque de dépendances;
Plus rapide que en temps réel sur un thread CPU (!!!);
Support pour 16 kHz et 8 kHz hors de la boîte;

Nous avons également publié un modèle de réinscription au texte et de recapitalisation qui:

Insérez des lettres majuscules et des marques de ponctuation de base, par exemple, des points, des virgules, des traits de main, des points d'interrogation, des points d'exclamation et des tirets (pour le russe);
Fonctionne pour 4 langues (russe, anglais, allemand et espagnol) et peut être étendu;
Angnostique du domaine par conception et non basé sur des règles codées durs;
A des mesures non triviales et réussit dans la tâche d'améliorer la lisibilité au texte;

Installation et bases

Vous pouvez essentiellement utiliser nos modèles en 3 saveurs:

Via Pytorch Hub: torch.hub.load() ;
Via PIP: pip install silero puis import silero ;
Via la mise en cache des modèles requis et utilise manuellement et modifiant si nécessaire;

Les modèles sont téléchargés à la demande par PIP et Pytorch Hub. Si vous avez besoin de mise en cache, faites-le manuellement ou en invoquant un modèle nécessaire une fois (il sera téléchargé dans un dossier de cache). Veuillez consulter ces documents pour plus d'informations.

Le package Pytorch Hub et PIP sont basés sur le même code. Tous les exemples de torch.hub.load peuvent être utilisés avec le package PIP via ce changement de base:

 # before
torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
               model = 'silero_stt' ,  # or silero_tts or silero_te
               ** kwargs )

# after
from silero import silero_stt , silero_tts , silero_te
silero_stt ( ** kwargs )

Discours à texte

Tous les modèles fournis sont répertoriés dans le fichier Models.yml. Toutes les métadonnées et versions plus récentes y seront ajoutées.

Capture d'écran_1

Actuellement, nous fournissons les points de contrôle suivants:

	Pytorch	Onnx	Quantification	Qualité
Anglais ( `en_v6` )	✔️	✔️	✔️	lien
Anglais ( `en_v5` )	✔️	✔️	✔️	lien
Allemand ( `de_v4` )	✔️	✔️	⌛	lien
Anglais ( `en_v3` )	✔️	✔️	✔️	lien
Allemand ( `de_v3` )	✔️	⌛	⌛	lien
Allemand ( `de_v1` )	✔️	✔️	⌛	lien
Espagnol ( `es_v1` )	✔️	✔️	⌛	lien
Ukrainien ( `ua_v3` )	✔️	✔️	✔️	N / A

Saves du modèle:

	jit	jit	jit	jit	jit_q	jit_q	onnx	onnx	onnx	onnx
	xsmall	petit	grand	xllure	xsmall	petit	xsmall	petit	grand	xllure
Anglais `en_v6`		✔️		✔️		✔️		✔️		✔️
Anglais `en_v5`		✔️		✔️		✔️		✔️		✔️
Anglais `en_v4_0`			✔️						✔️
Anglais `en_v3`	✔️	✔️	✔️		✔️	✔️	✔️	✔️	✔️
Allemand `de_v4`			✔️						✔️
Allemand `de_v3`			✔️
Allemand `de_v1`		✔️					✔️
`es_v1` espagnol		✔️					✔️
Ukrainien `ua_v3`		✔️			✔️		✔️

Dépendances

Tous les exemples:
- torch , 1,8+ (utilisé pour cloner le repo dans les exemples de Tensorflow et ONNX), brisant les modifications pour les versions de plus de 1,6
- torchaudio , la dernière version liée à Pytorch devrait simplement fonctionner
- omegaconf , le dernier devrait juste fonctionner
Dépendances supplémentaires pour les exemples d'ONNX:
- onnx , le dernier devrait juste fonctionner
- onnxruntime , le dernier devrait juste fonctionner
Supplémentaire pour les exemples de tensorflow:
- tensorflow , le dernier devrait juste fonctionner
- tensorflow_hub , le dernier devrait juste fonctionner

Veuillez consulter le colab fourni pour plus de détails pour chaque exemple ci-dessous. Tous les exemples sont maintenus pour fonctionner avec les dernières versions emballées principales des bibliothèques installées.

Pytorch

 import torch
import zipfile
import torchaudio
from glob import glob

device = torch . device ( 'cpu' )  # gpu also works, but our models are fast enough for CPU
model , decoder , utils = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                       model = 'silero_stt' ,
                                       language = 'en' , # also available 'de', 'es'
                                       device = device )
( read_batch , split_into_batches ,
 read_audio , prepare_model_input ) = utils  # see function signature for details

# download a single file in any format compatible with TorchAudio
torch . hub . download_url_to_file ( 'https://opus-codec.org/static/examples/samples/speech_orig.wav' ,
                               dst = 'speech_orig.wav' , progress = True )
test_files = glob ( 'speech_orig.wav' )
batches = split_into_batches ( test_files , batch_size = 10 )
input = prepare_model_input ( read_batch ( batches [ 0 ]),
                            device = device )

output = model ( input )
for example in output :
    print ( decoder ( example . cpu ()))

Onnx

Notre modèle s'exécutera n'importe où qui peut importer le modèle ONNX ou qui prend en charge l'exécution ONNX.

 import onnx
import torch
import onnxruntime
from omegaconf import OmegaConf

language = 'en' # also available 'de', 'es'

# load provided utils
_ , decoder , utils = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' , model = 'silero_stt' , language = language )
( read_batch , split_into_batches ,
 read_audio , prepare_model_input ) = utils

# see available models
torch . hub . download_url_to_file ( 'https://raw.githubusercontent.com/snakers4/silero-models/master/models.yml' , 'models.yml' )
models = OmegaConf . load ( 'models.yml' )
available_languages = list ( models . stt_models . keys ())
assert language in available_languages

# load the actual ONNX model
torch . hub . download_url_to_file ( models . stt_models . en . latest . onnx , 'model.onnx' , progress = True )
onnx_model = onnx . load ( 'model.onnx' )
onnx . checker . check_model ( onnx_model )
ort_session = onnxruntime . InferenceSession ( 'model.onnx' )

# download a single file in any format compatible with TorchAudio
torch . hub . download_url_to_file ( 'https://opus-codec.org/static/examples/samples/speech_orig.wav' , dst = 'speech_orig.wav' , progress = True )
test_files = [ 'speech_orig.wav' ]
batches = split_into_batches ( test_files , batch_size = 10 )
input = prepare_model_input ( read_batch ( batches [ 0 ]))

# actual ONNX inference and decoding
onnx_input = input . detach (). cpu (). numpy ()
ort_inputs = { 'input' : onnx_input }
ort_outs = ort_session . run ( None , ort_inputs )
decoded = decoder ( torch . Tensor ( ort_outs [ 0 ])[ 0 ])
print ( decoded )

Tensorflow

Exemple SavedModel

 import os
import torch
import subprocess
import tensorflow as tf
import tensorflow_hub as tf_hub
from omegaconf import OmegaConf

language = 'en' # also available 'de', 'es'

# load provided utils using torch.hub for brevity
_ , decoder , utils = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' , model = 'silero_stt' , language = language )
( read_batch , split_into_batches ,
 read_audio , prepare_model_input ) = utils

# see available models
torch . hub . download_url_to_file ( 'https://raw.githubusercontent.com/snakers4/silero-models/master/models.yml' , 'models.yml' )
models = OmegaConf . load ( 'models.yml' )
available_languages = list ( models . stt_models . keys ())
assert language in available_languages

# load the actual tf model
torch . hub . download_url_to_file ( models . stt_models . en . latest . tf , 'tf_model.tar.gz' )
subprocess . run ( 'rm -rf tf_model && mkdir tf_model && tar xzfv tf_model.tar.gz -C tf_model' ,  shell = True , check = True )
tf_model = tf . saved_model . load ( 'tf_model' )

# download a single file in any format compatible with TorchAudio
torch . hub . download_url_to_file ( 'https://opus-codec.org/static/examples/samples/speech_orig.wav' , dst = 'speech_orig.wav' , progress = True )
test_files = [ 'speech_orig.wav' ]
batches = split_into_batches ( test_files , batch_size = 10 )
input = prepare_model_input ( read_batch ( batches [ 0 ]))

# tf inference
res = tf_model . signatures [ "serving_default" ]( tf . constant ( input . numpy ()))[ 'output_0' ]
print ( decoder ( torch . Tensor ( res . numpy ())[ 0 ]))

Texte vocal

Modèles et haut-parleurs

Tous les modèles fournis sont répertoriés dans le fichier Models.yml. Toutes les métadonnées et versions plus récentes y seront ajoutées.

V4

Les modèles V4 prennent en charge SSML. Voir également des exemples de colab pour l'utilisation de la balise SSML principale.

IDENTIFIANT	Conférenciers	Stress automatique	Langue	SR
`v4_ru`	`aidar` , `baya` , `kseniya` , `xenia` , `eugene` , `random`	Oui	`ru` (russe)	`8000` , `24000` , `48000`
`v4_cyrillic`	`b_ava` , `marat_tt` , `kalmyk_erdni` ...	Non	`cyrillic` (Avar, Tatar, Kalmyk, ...)	`8000` , `24000` , `48000`
`v4_ua`	`mykyta` , `random`	Non	`ua` (Ukrainien)	`8000` , `24000` , `48000`
`v4_uz`	`dilnavoz`	Non	`uz` (Ouzbek)	`8000` , `24000` , `48000`
`v4_indic`	`hindi_male` , `hindi_female` , ..., `random`	Non	`indic` (hindi, telugu, ...)	`8000` , `24000` , `48000`

V3

Les modèles V3 prennent en charge SSML. Voir également des exemples de colab pour l'utilisation de la balise SSML principale.

IDENTIFIANT	Conférenciers	Stress automatique	Langue	SR
`v3_en`	`en_0` , `en_1` , ..., `en_117` , `random`	Non	`en` (anglais)	`8000` , `24000` , `48000`
`v3_en_indic`	`tamil_female` , ..., `assamese_male` , `random`	Non	`en` (anglais)	`8000` , `24000` , `48000`
`v3_de`	`eva_k` , ..., `karlsson` , `random`	Non	`de` (allemand)	`8000` , `24000` , `48000`
`v3_es`	`es_0` , `es_1` , `es_2` , `random`	Non	`es` (espagnol)	`8000` , `24000` , `48000`
`v3_fr`	`fr_0` , ..., `fr_5` , `random`	Non	`fr` (français)	`8000` , `24000` , `48000`
`v3_indic`	`hindi_male` , `hindi_female` , ..., `random`	Non	`indic` (hindi, telugu, ...)	`8000` , `24000` , `48000`

Dépendances

Dépendances de base pour les exemples de colab:

torch , 1.10+ pour les modèles V3 / 2.0+ pour les modèles V4;
torchaudio , la dernière version liée à Pytorch devrait fonctionner (requise uniquement parce que les modèles sont hébergés avec STT, non requis pour le travail);
omegaconf , dernier (peut également être supprimé, si vous ne chargez pas toutes les configurations);

Pytorch

 # V4
import torch

language = 'ru'
model_id = 'v4_ru'
sample_rate = 48000
speaker = 'xenia'
device = torch . device ( 'cpu' )

model , example_text = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                     model = 'silero_tts' ,
                                     language = language ,
                                     speaker = model_id )
model . to ( device )  # gpu or cpu

audio = model . apply_tts ( text = example_text ,
                        speaker = speaker ,
                        sample_rate = sample_rate )

Utilisation autonome

L'utilisation autonome nécessite uniquement Pytorch 1.10+ et la bibliothèque standard Python;
Veuillez consulter les exemples détaillés de Colab;

 # V4
import os
import torch

device = torch . device ( 'cpu' )
torch . set_num_threads ( 4 )
local_file = 'model.pt'

if not os . path . isfile ( local_file ):
    torch . hub . download_url_to_file ( 'https://models.silero.ai/models/tts/ru/v4_ru.pt' ,
                                   local_file )  

model = torch . package . PackageImporter ( local_file ). load_pickle ( "tts_models" , "model" )
model . to ( device )

example_text = 'В недрах тундры выдры в г+етрах т+ырят в вёдра ядра кедров.'
sample_rate = 48000
speaker = 'baya'

audio_paths = model . save_wav ( text = example_text ,
                             speaker = speaker ,
                             sample_rate = sample_rate )

SSML

Consultez notre page Wiki TTS.

Langues cyrilliques

Tokenset pris en charge: !,-.:?iµöабвгдежзийклмнопрстуфхцчшщъыьэюяёђѓєіјњћќўѳғҕҗҙқҡңҥҫүұҳҷһӏӑӓӕӗәӝӟӥӧөӱӳӵӹ

Speaker_id	Langue	Genre
b_ava	Avar	F
b_bashkir	Bashkir	M
b_bulb	bulgare	M
b_bulc	bulgare	M
b_che	Tchétchène	M
b_cv	Chouvash	M
cv_ekaterina	Chouvash	F
b_myv	Erzya	M
b_kalmyk	Kalmyk	M
b_krc	Karachay-Balkar	M
kz_m1	Kazakh	M
kz_m2	Kazakh	M
kz_f3	Kazakh	F
kz_f1	Kazakh	F
kz_f2	Kazakh	F
b_kjh	Kakas	F
b_kpv	Komi-ziryan	M
b_lez	Lezgien	M
b_mhr	Mari	F
b_mrj	Mari High	M
b_nog	Nogai	F
chef	Ossétique	M
b_ru	russe	M
b_tat	tatar	M
marat_tt	tatar	M
b_tyv	Tuvinien	M
b_udm	Udmurt	M
b_uzb	Ouzbek	M
b_sah	Yakut	M
kalmyk_erdni	Kalmyk	M
kalmyk_delghir	Kalmyk	F

Langues indicales

Exemple

(!!!) Toutes les phrases d'entrée doivent être romannées au format ISO à l'aide d' aksharamukha . Un exemple pour hindi :

 # V3
import torch
from aksharamukha import transliterate

# Loading model
model , example_text = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                     model = 'silero_tts' ,
                                     language = 'indic' ,
                                     speaker = 'v4_indic' )

orig_text = "प्रसिद्द कबीर अध्येता, पुरुषोत्तम अग्रवाल का यह शोध आलेख, उस रामानंद की खोज करता है"
roman_text = transliterate . process ( 'Devanagari' , 'ISO' , orig_text )
print ( roman_text )

audio = model . apply_tts ( roman_text ,
                        speaker = 'hindi_male' )

Langues prises en charge

Langue	Conférenciers	Fonction de romanisation
hindi	`hindi_female` , `hindi_male`	`transliterate.process('Devanagari', 'ISO', orig_text)`
malayalam	`malayalam_female` , `malayalam_male`	`transliterate.process('Malayalam', 'ISO', orig_text)`
manipuri	`manipuri_female`	`transliterate.process('Bengali', 'ISO', orig_text)`
bengali	`bengali_female` , `bengali_male`	`transliterate.process('Bengali', 'ISO', orig_text)`
Rajasthani	`rajasthani_female` , `rajasthani_female`	`transliterate.process('Devanagari', 'ISO', orig_text)`
tamoul	`tamil_female` , `tamil_male`	`transliterate.process('Tamil', 'ISO', orig_text, pre_options=['TamilTranscribe'])`
telugu	`telugu_female` , `telugu_male`	`transliterate.process('Telugu', 'ISO', orig_text)`
gujarati	`gujarati_female` , `gujarati_male`	`transliterate.process('Gujarati', 'ISO', orig_text)`
kannada	`kannada_female` , `kannada_male`	`transliterate.process('Kannada', 'ISO', orig_text)`

Amélioration du texte

Langues	Quantification	Qualité	Colab
'en', 'de', 'ru', 'es'	✔️	lien

Dépendances

Dépendances de base pour les exemples de colab:

torch , 1,9+;
pyyaml , mais il est installé avec Torch lui-même

Utilisation autonome

L'utilisation autonome ne nécessite que Pytorch 1.9+ et la bibliothèque standard Python;
Veuillez consulter les exemples détaillés de Colab;

 import torch

model , example_texts , languages , punct , apply_te = torch . hub . load ( repo_or_dir = 'snakers4/silero-models' ,
                                                                  model = 'silero_te' )

input_text = input ( 'Enter input text n ' )
apply_te ( input_text , lan = 'en' )

Débauche

Les modèles Denoise tentent de réduire le bruit de fond ainsi que divers artefacts tels que la réverbération, l'écrêtage, les filtres élevés / passe-bas, etc., tout en essayant de préserver et / ou d'améliorer la parole. Ils tentent également d'améliorer la qualité de l'audio et d'augmenter le taux d'échantillonnage de l'entrée jusqu'à 48 kHz.

Modèles

Tous les modèles fournis sont répertoriés dans le fichier Models.yml.

Modèle	Jit	Sr d'entrée réelle	Entrée SR	Sortie SR
`small_slow`	✔️	`8000` , `16000` , `24000` , `44100` , `48000`	`24000`	`48000`
`large_fast`	✔️	`8000` , `16000` , `24000` , `44100` , `48000`	`24000`	`48000`
`small_fast`	✔️	`8000` , `16000` , `24000` , `44100` , `48000`	`24000`	`48000`

Dépendances

Dépendances de base pour les exemples de colab:

torch , 2.0+;
torchaudio , la dernière version liée à Pytorch devrait fonctionner;
omegaconf , plus tard (peut également être supprimé, si vous ne chargez pas toutes les configurations).

Pytorch

 import torch

name = 'small_slow'
device = torch . device ( 'cpu' )
model , samples , utils = torch . hub . load (
  repo_or_dir = 'snakers4/silero-models' ,
  model = 'silero_denoise' ,
  name = name ,
  device = device )
( read_audio , save_audio , denoise ) = utils

i = 0
torch . hub . download_url_to_file (
  samples [ i ],
  dst = f'sample { i } .wav' ,
  progress = True
)
audio_path = f'sample { i } .wav'
audio = read_audio ( audio_path ). to ( device )
output = model ( audio )
save_audio ( f'result { i } .wav' , output . squeeze ( 1 ). cpu ())

i = 1
torch . hub . download_url_to_file (
  samples [ i ],
  dst = f'sample { i } .wav' ,
  progress = True
)
output , sr = denoise ( model , f'sample { i } .wav' , f'result { i } .wav' , device = 'cpu' )

Utilisation autonome

 import os
import torch

device = torch . device ( 'cpu' )
torch . set_num_threads ( 4 )
local_file = 'model.pt'

if not os . path . isfile ( local_file ):
    torch . hub . download_url_to_file ( 'https://models.silero.ai/denoise_models/sns_latest.jit' ,
                                   local_file )  

model = torch . jit . load ( local_file )
torch . _C . _jit_set_profiling_mode ( False ) 
torch . set_grad_enabled ( False )
model . to ( device )

a = torch . rand (( 1 , 48000 ))
a = a . to ( device )
out = model ( a )

FAQ

Wiki

Découvrez également notre wiki.

Performance et qualité

Veuillez vous référer à ces sections wiki:

Benchmarks de qualité
Benchmarks de performance

Ajout de nouvelles langues

Veuillez vous référer ici.

Contact

Entrer en contact

Essayez nos modèles, créez un problème, rejoignez notre chat, envoyez-nous un e-mail et lisez les dernières nouvelles.

Enquêtes commerciales

Veuillez vous référer à notre wiki et à la page Licensing and Tiers pour des informations pertinentes et envoyez-nous un e-mail.

Citations

 @misc { Silero Models,
  author = { Silero Team } ,
  title = { Silero Models: pre-trained enterprise-grade STT / TTS models and benchmarks } ,
  year = { 2021 } ,
  publisher = { GitHub } ,
  journal = { GitHub repository } ,
  howpublished = { url{https://github.com/snakers4/silero-models} } ,
  commit = { insert_some_commit_here } ,
  email = { hello @ silero.ai }
}

Dès la lecture

Anglais

STT:
- Vers un moment ImageNet pour la parole à texte - Lien
- Un discours aux praticiens du texte Critiques de l'industrie et du monde universitaire - Lien
- Modèles STT de niveau Google modernes publiés - Lien
TTS:
- Modèles multilingues de texte vocale pour les langages indic - Lien
- Notre nouvelle synthèse de la parole publique en super haute qualité, 10x plus rapide et plus stable - Lien
- Texte à dissolution de haute qualité rendu accessible, simple et rapide - lien
VAD:
- Un détecteur de voix pour les gouverner tous - lien
- Détecteur d'activité vocale portable moderne libéré - lien
Amélioration du texte:
- Nous avons publié un modèle de réinscription au texte et de recapitalisation pour quatre langues - Lien

Chinois

STT:
- 迈向语音识别领域的 ImageNet 时刻 - lien
- 语音领域学术界和工业界的七宗罪 - Lien

russe

STT
- Openai ршили рсознавание речи! Разбираеmine
- Наши сервисы для бес démar que ро рас démar
- Telegram-бот SILERO бес démar
- Бес démarmette
- Последние об avant
- Жжимаем тра avant
- Ультимативное сравнение систем рсззнавания речи: Ashmanov, Google, Sber, Sielero, Tinkoff, Yandex - Link
- Ыы о≥ ббы
- Понижаем барьеры на Вход В рспзнавание рчи - lien
- Оромный отрытый датасет русской рчи версия 1.0 - lien
- Наскольк ыстрой можно сделать систему STT? - lien
- Наша си
- Speech-to-Text - Lien
TTS:
- Теперь наш синтез также достуеен В В виде бота Â телеграме - lien
- Может ли синтез речи обмануть систему биометрической идентификацц? - lien
- Теперь наш синтез на 20 языках - lien
- Теcinр наш пбличный синтез В спер-высоком кчестве, В 10 раз ыыыееееve
- Синтезируем голос баmine
- Ыы селали наш пббличный синтез речи еще ллчше - lien
- Ыы опбликовали качественный, простой, доступый и ыстрый синтез рчи - Link
VAD:
- Наш пббл
- А ы и ис démar Что это такое и зачем он нжен - Lien
- Модели для детекцц рчи, чисел и рссзнавания языков -
- Ыы опeux
Amélioration du texte:
- Восстановленdent
- Ыы опeux

Dons

Veuillez utiliser le bouton "sponsor".

Développer