Téléchargement whisper timestamped - Téléchargement de code source whisper timestamped Téléchargement

chuchotement

Reconnaissance de la parole automatique multilingue avec horodatage et confiance au niveau des mots.

Description
- Notes sur d'autres approches
Installation
- Première installation
  - Packages supplémentaires qui pourraient être nécessaires
  - Docker
- Installation légère pour le processeur
- Passer à la dernière version
Usage
- Python
- Ligne de commande
- Fonctions utilitaires
- Plot de l'alignement des mots
- Exemple de sortie
Référence de l'API
- Fonction de transcription principale
- Fonctions utilitaires
- Fonctions d'écriture de fichiers
Options qui peuvent améliorer les résultats
- Transcription précise de Whisper
- Détection d'activité vocale en cours d'exécution (VAD) avant d'envoyer à chuchoter
- Détection des disfluences
Reconnaissance
Citations

Description

Whisper est un ensemble de modèles de reconnaissance de la parole multilingues et robustes formés par OpenAI qui atteignent des résultats de pointe dans de nombreuses langues. Les modèles Whisper ont été formés pour prédire les horodatages approximatifs sur les segments de la parole (la plupart du temps avec une précision d'une seconde), mais ils ne peuvent pas prédire à l'origine des horodatages des mots. Ce référentiel propose une implémentation pour prédire les horodatages des mots et fournir une estimation plus précise des segments de la parole lors de la transcription avec des modèles Whisper . En outre, un score de confiance est attribué à chaque mot et à chaque segment.

L'approche est basée sur la déformation temporelle dynamique (DTW) appliquée aux poids de l'attention croisée, comme l'ont démontré ce cahier de Jong Wook Kim. Il y a quelques ajouts à ce cahier:

L'estimation de début / fin est plus précise.
Les scores de confiance sont affectés à chaque mot.
Si possible (sans recherche de faisceau ...) , aucune étape d'inférence supplémentaire n'est nécessaire pour prédire les horodatages des mots (l'alignement des mots est effectué à la volée après le décodage de chaque segment de la parole).
Des soins spéciaux ont été pris en ce qui concerne l'utilisation de la mémoire: whisper-timestamped est capable de traiter les fichiers longs avec peu de mémoire supplémentaire par rapport à l'utilisation régulière du modèle Whisper.

whisper-timestamped est une extension du package openai-whisper Python et est censé être compatible avec n'importe quelle version d' openai-whisper . Il fournit des horodatages de mots plus efficaces / précis, ainsi que ces fonctionnalités supplémentaires:

La détection de l'activité vocale (VAD) peut être exécutée avant d'appliquer un modèle Whisper, pour éviter les hallucinations en raison d'erreurs dans les données de formation (par exemple, prédire "Merci de regarder!" Sur un pur silence). Plusieurs méthodes VAD sont disponibles: SILERO (par défaut), Auditok, Auditok: V3.1
Lorsque la langue n'est pas spécifiée, les probabilités de langue sont fournies parmi les sorties.

Avertissement: veuillez noter que cette extension est destinée à des fins expérimentales et peut avoir un impact significatif sur les performances. Nous ne sommes pas responsables des problèmes ou des inefficacités qui découlent de son utilisation.

Notes sur d'autres approches

Une approche pertinente alternative pour récupérer les horodatages au niveau des mots consiste à utiliser des modèles WAV2VEC qui prédisent les caractères, comme mis en œuvre avec succès dans WhisperX. Cependant, ces approches présentent plusieurs inconvénients qui ne sont pas présents dans les approches basées sur des poids de transtention croisée tels que whisper_timestamped . Ces inconvénients incluent:

La nécessité de trouver un modèle WAV2VEC par langue à soutenir, qui ne s'étend pas bien avec les capacités multilingues de chuchotement.
La nécessité de gérer (au moins) un réseau neuronal supplémentaire (modèle WAV2VEC), qui consomme de la mémoire.
La nécessité de normaliser les caractères de la transcription Whisper pour correspondre au jeu de caractères du modèle WAV2VEC. Cela implique des conversions dépendant du langage maladroites, telles que la conversion de nombres en mots ("2" -> "deux"), les symboles en mots ("%" -> "pourcent", "€" -> "Euro (s)") ...
L'absence de robustesse autour des disfluences de la parole (charges, hésitations, mots répétés ...) qui sont généralement supprimés par chuchotement.

Une autre approche qui ne nécessite pas de modèle supplémentaire consiste à examiner les probabilités de jetons horodatotes estimées par le modèle Whisper après que chaque (sous) jeton de mot est prévu. Ceci a été implémenté, par exemple, dans Whisper.cpp et stable-ts. Cependant, cette approche manque de robustesse car les modèles Whisper n'ont pas été formés pour produire des horodatages significatifs après chaque mot. Les modèles Whisper ont tendance à prédire les horodatages qu'après un certain nombre de mots ont été prédits (généralement à la fin d'une phrase), et la distribution de probabilité des horodatages en dehors de cette condition peut être inexacte. Dans la pratique, ces méthodes peuvent produire des résultats totalement synchronisés sur certaines périodes (nous l'avons observé surtout quand il y a de la musique jingle). De plus, la précision horodato des modèles Whisper a tendance à être arrondie à 1 seconde (comme dans de nombreux sous-titres vidéo), ce qui est trop inexact pour les mots, et atteindre une meilleure précision est délicat.

Installation

Première installation

Exigences:

python3 (version supérieure ou égale à 3,7, au moins 3,9 est recommandée)
ffmpeg (Voir les instructions pour l'installation sur le référentiel Whisper)

Vous pouvez installer whisper-timestamped

pip3 install whisper-timestamped

ou en clonage ce référentiel et en cours d'installation:

git clone https://github.com/linto-ai/whisper-timestamped
cd whisper-timestamped/
python3 setup.py install

Packages supplémentaires qui pourraient être nécessaires

Si vous souhaitez tracer l'alignement entre les horodatages audio et les mots (comme dans cette section), vous avez également besoin de matplotlib:

pip3 install matplotlib

Si vous souhaitez utiliser l'option VAD (détection d'activité vocale avant d'exécuter un modèle Whisper), vous avez également besoin de torchaudio et d'onnxruntime:

pip3 install onnxruntime torchaudio

Si vous souhaitez utiliser des modèles Whisper Finetuned à partir du centre de face étreint, vous avez également besoin de transformateurs:

pip3 install transformers

Docker

Une image Docker d'environ 9 Go peut être construite en utilisant:

git clone https://github.com/linto-ai/whisper-timestamped
cd whisper-timestamped/
docker build -t whisper_timestamped:latest .

Installation légère pour le processeur

Si vous n'avez pas de GPU (ou que vous ne voulez pas l'utiliser), vous n'avez pas besoin d'installer les dépendances CUDA. Vous devez ensuite simplement installer une version légère de Torch avant d'installer des chuchotements, par exemple, comme suit:

pip3 install 
     torch==1.13.1+cpu 
     torchaudio==0.13.1+cpu 
     -f https://download.pytorch.org/whl/torch_stable.html

Une image docker spécifique d'environ 3,5 Go peut également être construite en utilisant:

git clone https://github.com/linto-ai/whisper-timestamped
cd whisper-timestamped/
docker build -t whisper_timestamped_cpu:latest -f Dockerfile.cpu .

Passer à la dernière version

Lorsque vous utilisez PIP, la bibliothèque peut être mise à jour vers la dernière version en utilisant:

 pip3 install --upgrade --no-deps --force-reinstall git+https://github.com/linto-ai/whisper-timestamped

Une version spécifique d' openai-whisper peut être utilisée en fonctionnant, par exemple:

pip3 install openai-whisper==20230124

Usage

Python

Dans Python, vous pouvez utiliser la fonction whisper_timestamped.transcribe() , qui est similaire à la fonction whisper.transcribe() :

 import whisper_timestamped
help ( whisper_timestamped . transcribe )

La principale différence avec whisper.transcribe() est que la sortie inclura une clé "words" pour tous les segments, avec le mot de départ et de position finale. Notez que le mot inclura la ponctuation. Voir l'exemple ci-dessous.

En outre, les options de décodage par défaut sont différentes pour favoriser le décodage efficace (décodage gourmand au lieu de la recherche de faisceau, et pas de repli d'échantillonnage de température). Pour avoir la même valeur par défaut que dans whisper , utilisez beam_size=5, best_of=5, temperature=(0.0, 0.2, 0.4, 0.6, 0.8, 1.0) .

Il existe également des options supplémentaires liées à l'alignement des mots.

En général, si vous importez whisper_timestamped au lieu de whisper dans votre script Python et utilisez transcribe(model, ...) au lieu de model.transcribe(...) , il devrait faire le travail:

 import whisper_timestamped as whisper

audio = whisper . load_audio ( "AUDIO.wav" )

model = whisper . load_model ( "tiny" , device = "cpu" )

result = whisper . transcribe ( model , audio , language = "fr" )

import json
print ( json . dumps ( result , indent = 2 , ensure_ascii = False ))

Notez que vous pouvez utiliser un modèle Whisper Finetuned à partir de HuggingFace ou un dossier local en utilisant la méthode load_model de whisper_timestamped . Par exemple, si vous souhaitez utiliser Whisper-Large-V2-NOB, vous pouvez simplement effectuer ce qui suit:

 import whisper_timestamped as whisper

model = whisper . load_model ( "NbAiLab/whisper-large-v2-nob" , device = "cpu" )

# ...

Ligne de commande

Vous pouvez également utiliser whisper_timestamped sur la ligne de commande, similaire à whisper . Voir l'aide avec:

whisper_timestamped --help

Les principales différences avec whisper CLI sont:

Fichiers de sortie:
- La sortie JSON contient des horodatages de mots et des scores de confiance. Voir l'exemple ci-dessous.
- Il existe un format de sortie CSV supplémentaire.
- Pour les formats SRT, VTT, TSV, il y aura des fichiers supplémentaires enregistrés avec des horodatages Word.
Certaines options par défaut sont différentes:
- Par défaut, aucun dossier de sortie n'est défini: use --output_dir . pour chuchoter par défaut.
- Par défaut, il n'y a pas de verbose: use --verbose True for whisper par défaut.
- Par défaut, le décodage de recherche de faisceau et le repli de l'échantillonnage de la température sont désactivés, pour favoriser un décodage efficace. Pour définir la même chose que Whisper Default, vous pouvez utiliser --accurate (qui est un alias pour --beam_size 5 --temperature_increment_on_fallback 0.2 --best_of 5 ).
Il existe des options spécifiques supplémentaires:
- --compute_confidence pour activer / désactiver le calcul des scores de confiance pour chaque mot.
- --punctuations_with_words pour décider si les marques de ponctuation doivent être incluses ou non avec des mots précédents.

Un exemple de commande pour traiter plusieurs fichiers à l'aide du modèle tiny et publier les résultats dans le dossier actuel, comme cela serait fait par défaut avec Whisper, est le suivant:

 whisper_timestamped audio1.flac audio2.mp3 audio3.wav --model tiny --output_dir .

Notez que vous pouvez utiliser un modèle de chuchotement affiné de HuggingFace ou d'un dossier local. Par exemple, si vous souhaitez utiliser le modèle Whisper-Large-V2-NOB, vous pouvez simplement effectuer ce qui suit:

 whisper_timestamped --model NbAiLab/whisper-large-v2-nob <...>

Fonctions utilitaires

En plus de la fonction transcribe principale, Whisper-Timestamped fournit certaines fonctions d'utilité:

`remove_non_speech`

Retirez les segments de non-parole de l'audio à l'aide de la détection d'activité vocale (VAD).

 from whisper_timestamped import remove_non_speech

audio_speech , segments , convert_timestamps = remove_non_speech ( audio , vad = "silero" )

`load_model`

Chargez un modèle Whisper à partir d'un nom ou d'un chemin donné, y compris la prise en charge des modèles affinés de HuggingFace.

 from whisper_timestamped import load_model

model = load_model ( "NbAiLab/whisper-large-v2-nob" , device = "cpu" )

Plot de l'alignement des mots

Notez que vous pouvez utiliser l'option plot_word_alignment de la fonction python whisper_timestamped.transcribe() ou l'option --plot de la CLI whisper_timestamped pour voir l'alignement du mot pour chaque segment.

Exemple d'alignement

Le tracé supérieur représente la transformation des poids de l'attention croisée utilisés pour l'alignement avec la déformation du temps dynamique. L'abscisse représente le temps, et l'ordonnée représente les jetons prévus, avec des jetons horodomagistes spéciaux au début et à la fin, et (sous) les mots et la ponctuation au milieu.
Le tracé inférieur est une représentation MFCC du signal d'entrée (caractéristiques utilisées par Whisper, basées sur le cepstrum de la fréquence MEL).
Les lignes rouges en pointillés verticales montrent où les limites du mot se trouvent (avec des marques de ponctuation "collées" au mot précédent).

Exemple de sortie

La sortie de la fonction whisper_timestamped.transcribe() est un dictionnaire Python, qui peut être visualisé au format JSON à l'aide de la CLI.

Le schéma JSON peut être vu dans Tests / JSON_SChema.json.

Voici un exemple de sortie:

whisper_timestamped AUDIO_FILE.wav --model tiny --language fr

{
  "text" : " Bonjour! Est-ce que vous allez bien? " ,
  "segments" : [
    {
      "id" : 0 ,
      "seek" : 0 ,
      "start" : 0.5 ,
      "end" : 1.2 ,
      "text" : " Bonjour! " ,
      "tokens" : [ 25431 , 2298 ],
      "temperature" : 0.0 ,
      "avg_logprob" : -0.6674491882324218 ,
      "compression_ratio" : 0.8181818181818182 ,
      "no_speech_prob" : 0.10241222381591797 ,
      "confidence" : 0.51 ,
      "words" : [
        {
          "text" : " Bonjour! " ,
          "start" : 0.5 ,
          "end" : 1.2 ,
          "confidence" : 0.51
        }
      ]
    },
    {
      "id" : 1 ,
      "seek" : 200 ,
      "start" : 2.02 ,
      "end" : 4.48 ,
      "text" : " Est-ce que vous allez bien? " ,
      "tokens" : [ 50364 , 4410 , 12 , 384 , 631 , 2630 , 18146 , 3610 , 2506 , 50464 ],
      "temperature" : 0.0 ,
      "avg_logprob" : -0.43492694334550336 ,
      "compression_ratio" : 0.7714285714285715 ,
      "no_speech_prob" : 0.06502953916788101 ,
      "confidence" : 0.595 ,
      "words" : [
        {
          "text" : " Est-ce " ,
          "start" : 2.02 ,
          "end" : 3.78 ,
          "confidence" : 0.441
        },
        {
          "text" : " que " ,
          "start" : 3.78 ,
          "end" : 3.84 ,
          "confidence" : 0.948
        },
        {
          "text" : " vous " ,
          "start" : 3.84 ,
          "end" : 4.0 ,
          "confidence" : 0.935
        },
        {
          "text" : " allez " ,
          "start" : 4.0 ,
          "end" : 4.14 ,
          "confidence" : 0.347
        },
        {
          "text" : " bien? " ,
          "start" : 4.14 ,
          "end" : 4.48 ,
          "confidence" : 0.998
        }
      ]
    }
  ],
  "language" : " fr "
}

Si la langue n'est pas spécifiée (par exemple sans option --language fr dans la CLI), vous trouverez une clé supplémentaire avec les probabilités de langue:

{
  ...
  "language" : " fr " ,
  "language_probs" : {
    "en" : 0.027954353019595146 ,
    "zh" : 0.02743500843644142 ,
    ...
    "fr" : 0.9196318984031677 ,
    ...
    "su" : 3.0119704064190955e-08 ,
    "yue" : 2.2565967810805887e-05
  }
}

Référence de l'API

Fonction de transcription principale

`transcribe_timestamped(model, audio, **kwargs)`

Transcrire l'audio à l'aide d'un modèle Whisper et calculer les horodatages de niveau mot.

Paramètres:

model : Whisper Model Instance Le modèle Whisper à utiliser pour la transcription.
audio : Union [Str, NP.NDARRAY, TORCH.tensor] Le chemin du fichier audio à transcrire, ou la forme d'onde audio en tant que réseau numpy ou tensor pytorch.
language : Str, Facultatif (par défaut: aucun) La langue de l'audio. Si aucun, la détection de la langue sera effectuée.
task : STR, par défaut "Transcrire" la tâche à effectuer: soit "transcrire" pour la reconnaissance vocale ou "traduire" pour la traduction en anglais.
vad : Union [bool, str, list [tuple [float, float]]], facultatif (par défaut: false), s'il faut utiliser la détection d'activité vocale (VAD) pour supprimer les segments de non-discours. Peut être:
- True / false: activer / désactiver VAD (utilise SILERO VAD par défaut)
- "SILERO": Utilisez SILERO VAD
- "Auditok": Utilisez Auditok VAD
- Liste des horodatages (start, fin): spécifiez explicitement les segments de la parole
detect_disfluencies : bool, par défaut faux, s'il faut détecter et marquer les disfluences (hésitations, mots de remplissage, etc.) dans la transcription.
trust_whisper_timestamps : Bool, par défaut True, s'il faut s'appuyer sur les horlogers de Whisper pour les positions de segment initiales.
compute_word_confidence : bool, par défaut True s'il faut calculer les scores de confiance pour les mots.
include_punctuation_in_confidence : bool, par défaut faux, s'il faut inclure la probabilité de ponctuation lors du calcul de la confiance des mots.
refine_whisper_precision : float, par défaut 0,5 combien affiner les positions du segment des chuchotements, en quelques secondes. Doit être un multiple de 0,02.
min_word_duration : Float, par défaut 0,02 Durée minimale d'un mot, en secondes.
plot_word_alignment : bool ou str, par défaut faux, s'il faut tracer l'alignement du mot pour chaque segment. Si une chaîne, enregistrez le tracé dans le fichier donné.
word_alignement_most_top_layers : int, facultatif (par défaut: aucun) nombre de couches supérieures à utiliser pour l'alignement des mots. Si aucun, utilisez toutes les couches.
remove_empty_words : bool, par défaut faux, s'il faut supprimer des mots sans durée à la fin des segments.
naive_approach : bool, par défaut False Force L'approche naïve du décodage deux fois (une fois pour la transcription, une fois pour l'alignement).
use_backend_timestamps : bool, par défaut faux, qu'il s'agisse d'utiliser des horodatages de mots fournis par le backend (openai-whisper ou transformateurs), au lieu de ceux calculés par une heuristique plus complexe de chuchotements-timestampé.
temperature : Union [Float, List [Float]], par défaut 0,0 Température pour l'échantillonnage. Peut être une valeur unique ou une liste pour les températures de secours.
compression_ratio_threshold : float, par défaut 2.4 Si le rapport de compression GZIP est supérieur à cette valeur, traitez le décodage comme échoué.
logprob_threshold : float, par défaut -1,0 Si la probabilité du journal moyen est inférieure à cette valeur, traitez le décodage comme échoué.
no_speech_threshold : Float, par défaut 0,6 Seuil de probabilité pour <| Nospeech |> Tokens.
condition_on_previous_text : bool, par défaut vrai si vous devez fournir la sortie précédente comme invite pour la fenêtre suivante.
initial_prompt : STR, Facultatif (par défaut: aucun) Texte facultatif à fournir comme invite pour la première fenêtre.
suppress_tokens : STR, par défaut "-1" Liste des ID de jeton séparée par les virgules à supprimer lors de l'échantillonnage.
fp16 : bool, facultatif (par défaut: aucun) s'il faut effectuer l'inférence dans la précision FP16.
verbose : bool ou aucun, par défaut faux, s'il faut afficher le texte décodé sur la console. Si vrai, affiche tous les détails. Si faux, affiche des détails minimaux. Si aucun, il n'affiche rien.

Renvoie:

Un dictionnaire contenant:

text : Str - Le texte de transcription complet
segments : Liste [dict] - Liste des dictionnaires de segment, chacun contenant:
- id segment
- seek : INT - Position de démarrage dans le fichier audio (dans des échantillons)
- start : Float - Heure de début du segment (en secondes)
- end : Float - Temps de fin du segment (en secondes)
- text : STR - Texte transcrit pour le segment
- tokens : Liste [int] - ID de jeton pour le segment
- temperature : flotteur - température utilisée pour ce segment
- avg_logprob : Float - PROBABILITÉ DU LOG moyen du segment
- compression_ratio : Float - Ratio de compression du segment
- no_speech_prob : float - probabilité d'aucun discours dans le segment
- confidence : flotteur - score de confiance pour le segment
- words : Liste [Dict] - Liste des dictionnaires de mots, chacun contenant:
  - start : Float - Heure de début du mot (en quelques secondes)
  - end : Float - Temps de fin du mot (en secondes)
  - text : Str - Le mot texte
  - confidence : Float - Score de confiance pour le mot (s'il est calculé)
language : STR - Langue détectée ou spécifiée
language_probs : Dict - Probabilités de détection du langage (le cas échéant)

Exceptions:

RuntimeError : si la méthode VAD n'est pas correctement installée ou configurée.
ValueError : si le refine_whisper_precision n'est pas un multiple positif de 0,02.
AssertionError : Si la durée de l'audio est plus courte que prévu ou s'il y a des incohérences dans le nombre de segments.

Notes:

La fonction utilise le modèle Whisper pour transcrire l'audio, puis effectue un traitement supplémentaire pour générer des horodatages de niveau mot et des scores de confiance.
La fonctionnalité VAD peut améliorer considérablement la précision de la transcription en supprimant les segments de non-discours, mais il nécessite des dépendances supplémentaires (par exemple, Torchaudio et onnxruntime pour SILERO VAD).
Le paramètre naive_approach peut être utile pour le débogage ou lorsqu'il s'agit de caractéristiques audio spécifiques, mais elle peut être plus lente que l'approche par défaut.
Lorsque use_efficient_by_default est vrai, certains paramètres comme best_of , beam_size et temperature_increment_on_fallback sont définis sur aucun par défaut pour un traitement plus efficace.
La fonction prend en charge les backends Openai Whisper et Transformers, qui peuvent être spécifiés lors du chargement du modèle.

Fonctions utilitaires

`remove_non_speech(audio, **kwargs)`

Retirez les segments de non-parole de l'audio à l'aide de la détection d'activité vocale (VAD).

Paramètres:

audio : Torch.tensor Data audio en tant que tenseur de pytorch.
use_sample : bool, par défaut false if true, return start et fin les temps dans des échantillons au lieu de secondes.
min_speech_duration : float, par défaut 0,1 Durée minimale d'un segment de la parole en secondes.
min_silence_duration : Float, par défaut 1 durée minimale d'un segment de silence en secondes.
dilatation : flotteur, par défaut 0,5 combien agrandir chaque segment de parole détecté par VAD, en secondes.
sample_rate : INT, Taux d'échantillonnage par défaut 16000 de l'audio.
method : str ou list [tuple [float, float]], méthode VAD par défaut "SILERO" à utiliser. Peut être "SILERO", "Auditok" ou une liste d'horodatage.
avoid_empty_speech : bool, par défaut faux si vrai, évitez de renvoyer un segment de parole vide.
plot : Union [Bool, Str], par défaut Faux Si vrai, tracez les résultats VAD. Si une chaîne, enregistrez le tracé dans le fichier donné.

Renvoie:

Un tuple contenant:

Torch.Sensor: Audio avec des segments de non-discours supprimés
List [tuple [float, float]]: liste des horodatages (start, fin) pour les segments de la parole
Callable: fonction pour convertir les horodatages du nouvel audio à l'audio d'origine

Exceptions:

ImportError : Si la bibliothèque VAD requise (par exemple, Auditok) n'est pas installée.
ValueError : si une méthode VAD non valide est spécifiée.

Notes:

Cette fonction est particulièrement utile pour améliorer la précision de la transcription en supprimant les segments de silence et de non-discours de l'audio avant le traitement.
Le choix de la méthode VAD peut affecter la précision et la vitesse du processus d'élimination du non-discours.

`load_model(name, device=None, backend="openai-whisper", download_root=None, in_memory=False)`

Chargez un modèle de chuchotement à partir d'un nom ou d'un chemin donné.

Paramètres:

name : Str Nom du modèle ou chemin vers le modèle. Peut être:
- Identificateur d'Openai Whisper: "Large-V3", "Medium.en", etc.
- Identificateur HuggingFace: "Openai / Whisper-Large-V3", "Distil-Whisper / Distil-Large-V2", etc.
- Nom du fichier: "path / to / model.pt", "path / to / model.ckpt", "path / to / model.bin"
- Nom du dossier: "Path / To / Folder"
device : Union [Str, Torch.Device], Dispositif facultatif (par défaut: aucun) à utiliser. Si aucun, utilisez CUDA si disponible, sinon CPU.
backend : STR, backend par défaut "Openai-Whisper" à utiliser. Soit "Transformers" ou "Openai-Whisper".
download_root : STR, Fostère facultatif (par défaut: aucun) pour télécharger le modèle. Si aucun, utilisez la racine de téléchargement par défaut.
in_memory : BOOL, FAUX par défaut pour précharger les poids du modèle dans la mémoire de l'hôte.

Renvoie:

Le modèle chuchoté chargé.

Exceptions:

ValueError : si un backend non valide est spécifié.
ImportError : si la bibliothèque Transformers n'est pas installée lors de l'utilisation du backend "Transformers".
RuntimeError : si le modèle ne peut être trouvé ou téléchargé à partir de la source spécifiée.
OSError : S'il y a des problèmes lisant le fichier du modèle ou accédant au chemin spécifié.

Notes:

Lorsque vous utilisez un fichier de modèle local, assurez-vous que le format de fichier est compatible avec le backend sélectionné.
Pour les modèles HuggingFace, une connexion Internet peut être nécessaire pour télécharger le modèle s'il n'est pas déjà mis en cache localement.
La fonction prend en charge le chargement des modèles Openai Whisper et Transformers, offrant une flexibilité dans la sélection du modèle.

`get_alignment_heads(model, max_top_layer=3)`

Obtenez les têtes d'alignement pour le modèle donné.

Paramètres:

model : Whisper Model Instance Le modèle Whisper pour lequel récupérer les têtes d'alignement.
max_top_layer : int, par défaut 3 Nombre maximum de couches supérieures à considérer pour les têtes d'alignement.

Renvoie:

Un tenseur clairsemé représentant les têtes d'alignement.

Notes:

Cette fonction est utilisée en interne pour optimiser le processus d'alignement du mot.
Les têtes d'alignement sont spécifiques au modèle et sont utilisées pour améliorer la précision des horodatages au niveau des mots.

Fonctions d'écriture de fichiers

Les fonctions suivantes sont disponibles pour écrire des transcriptions dans divers formats de fichiers:

`write_csv(transcript, file, sep=",", text_first=True, format_timestamps=None, header=False)`

Écrivez des données de transcription dans un fichier CSV.

Paramètres:

transcript : liste [dict] Liste des dictionnaires de segment de transcription.
file : fichier d'objet de type fichier pour écrire les données CSV.
sep : Str, par défaut "," séparateur à utiliser dans le fichier CSV.
text_first : bool, par défaut True If True, écrivez la colonne de texte avant le démarrage / les heures de fin.
format_timestamps : Fonction appelée, facultative (par défaut: aucun) pour formater les valeurs d'horodatage.
header : Union [bool, list [Str]], par défaut Faux Si vrai, écrivez l'en-tête par défaut. Si une liste, utilisez comme en-tête personnalisé.

Exceptions:

IOError : s'il y a des problèmes qui écrivent dans le fichier spécifié.
ValueError : si les données de transcription ne sont pas dans le format attendu.

Notes:

Cette fonction est utile pour l'exportation des résultats de transcription dans un format tabulaire pour une analyse ou un traitement plus approfondi.
Le paramètre format_timestamps permet la mise en forme personnalisée des valeurs d'horodatage, qui peuvent être utiles pour des cas d'utilisation spécifiques ou des exigences d'analyse des données.

`write_srt(transcript, file)`

Écrivez des données de transcription dans un fichier SRT (Subrip Subtitle).

Paramètres:

transcript : liste [dict] Liste des dictionnaires de segment de transcription.
file : fichier d'objet de type fichier pour écrire les données SRT.

Exceptions:

IOError : s'il y a des problèmes qui écrivent dans le fichier spécifié.
ValueError : si les données de transcription ne sont pas dans le format attendu.

Notes:

SRT est un format de sous-titres largement pris en charge, ce qui rend cette fonction utile pour créer des sous-titres pour les vidéos basées sur la transcription.

`write_vtt(transcript, file)`

Écrivez des données de transcription dans un fichier VTT (WebVTT).

Paramètres:

transcript : liste [dict] Liste des dictionnaires de segment de transcription.
file : fichier d'objet de type fichier pour écrire les données VTT.

Exceptions:

IOError : s'il y a des problèmes qui écrivent dans le fichier spécifié.
ValueError : si les données de transcription ne sont pas dans le format attendu.

Notes:

WebVTT est une norme W3C pour afficher le texte chronométré en relation avec HTML5, ce qui rend cette fonction utile pour les applications Web.

`write_tsv(transcript, file)`

Écrivez des données de transcription dans un fichier TSV (valeurs séparées par TAB).

Paramètres:

transcript : liste [dict] Liste des dictionnaires de segment de transcription.
file : fichier d'objet de type fichier pour écrire les données TSV.

Exceptions:

IOError : s'il y a des problèmes qui écrivent dans le fichier spécifié.
ValueError : si les données de transcription ne sont pas dans le format attendu.

Notes:

Les fichiers TSV sont utiles pour importer des données de transcription dans des applications de feuille de calcul ou d'autres outils d'analyse des données.

Options qui peuvent améliorer les résultats

Voici quelques options qui ne sont pas activées par défaut mais qui peuvent améliorer les résultats.

Transcription précise de Whisper

Comme mentionné précédemment, certaines options de décodage sont désactivées par défaut pour offrir une meilleure efficacité. Cependant, cela peut avoir un impact sur la qualité de la transcription. Pour fonctionner avec les options qui ont les meilleures chances de fournir une bonne transcription, utilisez les options suivantes.

Dans Python:

 results = whisper_timestamped . transcribe ( model , audio , beam_size = 5 , best_of = 5 , temperature = ( 0.0 , 0.2 , 0.4 , 0.6 , 0.8 , 1.0 ), ...)

Sur la ligne de commande:

whisper_timestamped --accurate ...

Détection d'activité vocale en cours d'exécution (VAD) avant d'envoyer à chuchoter

Les modèles de chuchotement peuvent «halluciner» du texte lorsqu'ils ont donné un segment sans discours. Cela peut être évité en exécutant des segments de parole VAD et en collant ensemble avant de transcrire avec le modèle Whisper. Ceci est possible avec whisper-timestamped .

Dans Python:

 results = whisper_timestamped . transcribe ( model , audio , vad = True , ...)

Sur la ligne de commande:

whisper_timestamped --vad True ...

Par défaut, la méthode VAD utilisée est SILERE. Mais d'autres méthodes sont disponibles, telles que des versions antérieures de SILERO ou Auditok. Ces méthodes ont été introduites car les dernières versions de SILERO VAD peuvent avoir beaucoup de fausses alarmes sur certains audios (discours détecté sur le silence).

Dans Python:

 results = whisper_timestamped . transcribe ( model , audio , vad = "silero:v3.1" , ...)
results = whisper_timestamped . transcribe ( model , audio , vad = "auditok" , ...)

Sur la ligne de commande:

whisper_timestamped --vad silero:v3.1 ...
whisper_timestamped --vad auditok ...

Afin de regarder les résultats VAD, vous pouvez utiliser l'option --plot de la CLI whisper_timestamped , ou l'option plot_word_alignment de la fonction python whisper_timestamped.transcribe() . Il affichera les résultats VAD sur le signal audio d'entrée comme suivant (l'axe x est temps en secondes):

VAD = "SILERO: V4.0"	VAD = "SILERO: V3.1"	vad = "Auditok"

Détection des disfluences

Les modèles Whisper ont tendance à supprimer les disfluences de la parole (mots de remplissage, hésitations, répétitions, etc.). Sans précautions, les disfluences qui ne sont pas transcrites affecteront l'horodatage du mot suivant: L'horodatage du début du mot sera en fait l'horodatage du début des disfluences. whisper-timestamped peut avoir une certaine heuristique pour éviter cela.

Dans Python:

 results = whisper_timestamped . transcribe ( model , audio , detect_disfluencies = True , ...)

Sur la ligne de commande:

whisper_timestamped --detect_disfluencies True ...

IMPORTANT: Notez que lors de l'utilisation de ces options, les disfluences possibles apparaîtront dans la transcription comme un mot " [*] " spécial.

Reconnaissance

Whisper: Whisper Speech Reconnaissance (Licence MIT).
DTW-Python: Dynamic Time Warping (Licence GPL V3).

Citations

Si vous l'utilisez dans vos recherches, veuillez citer le dépôt:

 @misc { lintoai2023whispertimestamped ,
  title = { whisper-timestamped } ,
  author = { Louradour, J{'e}r{^o}me } ,
  journal = { GitHub repository } ,
  year = { 2023 } ,
  publisher = { GitHub } ,
  howpublished = { url{https://github.com/linto-ai/whisper-timestamped} }
}

Ainsi que le papier chuchoté Openai:

 @article { radford2022robust ,
  title = { Robust speech recognition via large-scale weak supervision } ,
  author = { Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya } ,
  journal = { arXiv preprint arXiv:2212.04356 } ,
  year = { 2022 }
}

Et ce document pour la barrage dynamique:

 @article { JSSv031i07 ,
  title = { Computing and Visualizing Dynamic Time Warping Alignments in R: The dtw Package } ,
  author = { Giorgino, Toni } ,
  journal = { Journal of Statistical Software } ,
  year = { 2009 } ,
  volume = { 31 } ,
  number = { 7 } ,
  doi = { 10.18637/jss.v031.i07 }
}

Développer