Téléchargement d' aeneas - Téléchargement du code source aeneas

aeneas

Autre code source

v1.7.3

Télécharger

Énée

Aeneas est une bibliothèque Python / C et un ensemble d'outils pour synchroniser automatiquement l'audio et le texte (alignement forcé).

Version: 1.7.3
Date: 2017-03-15
Développé par: readbeyond
Développeur principal: Alberto Pettarin
Licence: La version 3 de la licence publique générale GNU Affero (AGPL V3)
Contact: [email protected]
Liens rapides: Accueil - GitHub - PYPI - Docs - Tutoriel - Benchmark - Liste de diffusion - Application Web

But

Aeneas génère automatiquement une carte de synchronisation entre une liste de fragments de texte et un fichier audio contenant la narration du texte. En informatique, cette tâche est connue sous le nom (calcul automatiquement a) l'alignement forcé .

Par exemple, étant donné ce fichier texte et ce fichier audio, AENEAS détermine, pour chaque fragment, l'intervalle de temps correspondant dans le fichier audio:

 1                                                     => [00:00:00.000, 00:00:02.640]
From fairest creatures we desire increase,            => [00:00:02.640, 00:00:05.880]
That thereby beauty's rose might never die,           => [00:00:05.880, 00:00:09.240]
But as the riper should by time decease,              => [00:00:09.240, 00:00:11.920]
His tender heir might bear his memory:                => [00:00:11.920, 00:00:15.280]
But thou contracted to thine own bright eyes,         => [00:00:15.280, 00:00:18.800]
Feed'st thy light's flame with self-substantial fuel, => [00:00:18.800, 00:00:22.760]
Making a famine where abundance lies,                 => [00:00:22.760, 00:00:25.680]
Thy self thy foe, to thy sweet self too cruel:        => [00:00:25.680, 00:00:31.240]
Thou that art now the world's fresh ornament,         => [00:00:31.240, 00:00:34.400]
And only herald to the gaudy spring,                  => [00:00:34.400, 00:00:36.920]
Within thine own bud buriest thy content,             => [00:00:36.920, 00:00:40.640]
And tender churl mak'st waste in niggarding:          => [00:00:40.640, 00:00:43.640]
Pity the world, or else this glutton be,              => [00:00:43.640, 00:00:48.080]
To eat the world's due, by the grave and thee.        => [00:00:48.080, 00:00:53.240]

Forme d'onde avec les étiquettes alignées, les détails

Cette carte de synchronisation peut être sortie en fichier dans plusieurs formats, selon son application:

Recherche: Audacity (AUD), Elan (EAF), TextGrid;
Publication numérique: SMIL pour EPUB 3;
CONGRÈS CLOSÉ: Subrip (SRT), sous-parti (SBV / Sub), TTML, WebVTT (VTT);
Web: JSON;
Traitement supplémentaire: CSV, SSV, TSV, TXT, XML.

Exigences du système, plates-formes et installations prises en charge

Exigences du système

Une machine raisonnablement récente (4 Go de RAM, CPU 2 GHz 64 bits)
Python 2.7 (Linux, OS X, Windows) ou 3,5 ou plus tard (Linux, OS X)
Ffmpeg
épiler
Python Packages BeautifulSoup4 , lxml et numpy
En-têtes Python pour compiler les extensions Python C / C ++ (facultatif mais fortement recommandé)
Un shell prenant en charge UTF-8 (facultatif mais fortement recommandé)

Plates-formes prises en charge

Aeneas a été développé et testé sur Debian 64bit , avec Python 2.7 et Python 3.5 , qui sont les seules plateformes prises en charge pour le moment. Néanmoins, Aeneas a été confirmé pour fonctionner sur d'autres distributions Linux, Mac OS X et Windows. Voir le fichier des plates-formes pour plus de détails.

Si l'installation d'Éneas nativement sur votre système d'exploitation s'avère difficile, vous êtes fortement encouragé à utiliser Aeneas-Vagrant, qui fournit Aeneas à l'intérieur d'une image Debian virtualisée exécutée sous VirtualBox et Vagrant, qui peut être installée sur n'importe quel système d'exploitation moderne (Linux, Mac OS X, Windows).

Installation

Les installateurs tout-en-un sont disponibles pour Mac OS X et Windows, et un script bash pour les distributions Linux basés sur DEB (Debian, Ubuntu) est fourni dans ce référentiel. Il est également possible de télécharger une machine virtuelle VirtualBox + Vagrant. Veuillez consulter le fichier d'installation pour des procédures d'installation détaillées et étape par étape pour différents systèmes d'exploitation.

La procédure générique indépendante du système d'exploitation est simple:

Installez Python (2.7.x Preferred), FFMPEG et ESPEAK
Assurez-vous que les exécutables suivants peuvent être appelés à partir de votre shell : espeak , ffmpeg , ffprobe , pip et python
Installez d'abord numpy avec pip puis aeneas (cet ordre est important):
```
pip install numpy
pip install aeneas
```
Pour vérifier si vous avez installé correctement Aeneas , exécutez:
```
 python -m aeneas.diagnostics
```

Usage

Exécutez sans arguments pour obtenir le message d'utilisation :
```
python -m aeneas.tools.execute_task
python -m aeneas.tools.execute_job
```
Vous pouvez également obtenir une liste d' exemples en direct que vous pouvez immédiatement exécuter sur votre machine grâce aux fichiers inclus:
```
python -m aeneas.tools.execute_task --examples
python -m aeneas.tools.execute_task --examples-all
```
Pour calculer une carte de synchronisation map.json pour une paire ( audio.mp3 , text.txt au format de texte brut), vous pouvez exécuter:
```
python -m aeneas.tools.execute_task 
    audio.mp3 
    text.txt 
    " task_language=eng|os_task_file_format=json|is_text_type=plain " 
    map.json
```
(La commande a été divisée en lignes avec pour clarté visuelle; en production, vous pouvez avoir toute la commande sur une seule ligne et / ou vous pouvez utiliser des variables de shell.)
Pour calculer une carte de synchronisation map.smil pour une paire ( audio.mp3 , page.xhtml contenant des fragments marqués par des attributs id comme f001 ), vous pouvez exécuter:
```
python -m aeneas.tools.execute_task 
    audio.mp3 
    page.xhtml 
    " task_language=eng|os_task_file_format=smil|os_task_file_smil_audio_ref=audio.mp3|os_task_file_smil_page_ref=page.xhtml|is_text_type=unparsed|is_text_unparsed_id_regex=f[0-9]+|is_text_unparsed_id_sort=numeric " 
    map.smil
```
Comme vous pouvez le voir, le troisième argument (la chaîne de configuration ) spécifie les paramètres contrôlant les formats d'E / S et les options de traitement de la tâche. Consultez la documentation pour plus de détails.
Si vous avez plusieurs tâches à traiter, vous pouvez créer un conteneur de travail pour les traiter par lots:
```
python -m aeneas.tools.execute_job job.zip output_directory
```
Fichier job.zip doit contenir un fichier de configuration config.txt ou config.xml , fournissant à AENEAS toutes les informations nécessaires pour analyser les actifs d'entrée et formater les fichiers de carte de synchronisation de sortie. Consultez la documentation pour plus de détails.

La documentation contient un tutoriel hautement suggéré qui explique comment utiliser les outils de ligne de commande intégrés.

Documentation et support

Documentation: http://www.readbeyond.it/aeneas/docs/
Tutoriel des outils de ligne de commande: http://www.readbeyond.it/aeneas/docs/clitutorial.html
Tutoriel de la bibliothèque: http://www.readbeyond.it/aeneas/docs/libtutorial.html
Old, Tutorial Verbose: une introduction pratique au package Aeneas
Liste de diffusion: https://groups.google.com/d/forum/aeneas-forced-alignment
ChangeLog: http://www.readbeyond.it/aeneas/docs/changelog.html
DESCRIPTION DE HAUTEUR DE LE FONCTIONNEMENT ANEA
Histoire du développement: histoire
Tests: tests
Suite de référence: https://readbeyond.github.io/aeneas-benchmark/

Fonctionnalités prises en charge

Les fichiers texte de saisie au format parsed , plain , subtitles ou unparsed (XML)
Fichiers de texte d'entrée à plusieurs niveaux au format mplain et munparsed (XML)
Extraction de texte à partir de fichiers XML (par exemple, XHTML) à l'aide id et d'attributs class
Granularité du fragment de texte arbitraire (mot unique, sous-téléphonie, phrase, paragraphe, etc.)
Formats de fichiers audio d'entrée: tous ceux qui lisibles par ffmpeg
Formats de carte de synchronisation de sortie: Aud, CSV, EAF, JSON, SMIL, SRT, SSV, SUB, TextGrid, TSV, TTML, TXT, VTT, XML
Confirmé travaillant sur 38 langues: AFR, ARA, BUL, CAT, CYM, CES, DAN, DEU, ELL, ENG, EPO, EST, FAS, FIN, FRA, GLE, GRC, HRV, HUN, ISL, ITA, JPN, LAT, LAV, LIT, NLD, NOR, RON, RUS, POL, POR, SLK, SPA, SRP
MFCC et DTW calculés via des extensions Python C pour réduire le temps de traitement
Plusieurs emballages de moteur TTS intégrés: AWS Polly TTS API, ESPEak (par défaut), Espeak-NG, Festival, MacOS (via Say), Nuance TTS API
TTS par défaut (ESPEPE) appelé via une extension Python C pour la synthèse audio rapide
Possibilité d'exécuter un wrapper Python de moteur TTS personnalisé et fourni par l'utilisateur (par exemple, exemple inclus pour Speect)
Traitement par lots de plusieurs paires audio / texte
Télécharger l'audio à partir d'une vidéo YouTube
En mode à plusieurs niveaux, l'alignement récursif du paragraphe à la phrase au niveau de mot
En mode à plusieurs niveaux, la résolution MFCC, le masquage MFCC, la marge DTW et le moteur TTS peuvent être spécifiés pour chaque niveau indépendamment
Robuste contre les mots mal orthographiés / mal prononcés, réarrangements locaux de mots, bruit de fond / pointes sporadiques
Temps de fractionnement réglables, y compris une contrainte de caractère / seconde maximum pour les applications CC
Détection automatisée de la tête / queue audio
Sortir un fichier HTML pour le réglage fin de la carte de synchronisation manuellement (projet finetuneas )
Paramètres d'exécution réglable au moment de l'exécution
Code adapté au déploiement des applications Web (par exemple, instances de cloud computing à la demande)
Suite de test approfondie comprenant plus de 1 200 unitaires / tests d'intégration / performances, qui s'exécutent et doivent passer avant chaque version

Limitations et fonctionnalités manquantes

L'audio doit correspondre au texte: de grandes parties de texte ou d'audio parasites peuvent produire une mauvaise carte de synchronisation
L'audio est supposé être parlé: pas adapté au sous-titrage des chansons, YMMV pour les applications CC
Aucune protection contre l'échange de mémoire: assurez-vous que votre quantité de RAM est adéquate pour la durée maximale d'un seul fichier audio (par exemple, 4 Go de RAM => Audio max 2H; 16 Go de RAM => max 10h audio)
Problèmes ouverts

Une note sur l'alignement au niveau des mots

Un nombre significatif d'utilisateurs exécute Aeneas pour aligner l'audio et le texte au niveau des mots (c'est-à-dire que chaque fragment est un mot). Bien qu'Aeneas n'ait pas été conçu avec l'alignement au niveau des mots à l'esprit et que les résultats pourraient être inférieurs aux aligneurs forcés basés sur ASR pour les langues avec de bons modèles ASR, AEEEAS propose quelques options pour améliorer la qualité de l'alignement au niveau des mots:

Texte à plusieurs niveaux (depuis V1.5.1),
Masking MFCC non-peech (depuis V1.7.0, désactivé par défaut),
Utilisez de meilleurs moteurs TTS, comme Festival ou AWS / Nuance TTS API (depuis V1.5.0).

Si vous utilisez l'outil aeneas.tools.execute_task de la ligne de commande, vous pouvez ajouter un commutateur --presets-word pour activer le masquage de non-espèces MFCC, par exemple:

$ python -m aeneas.tools.execute_task --example-words --presets-word
$ python -m aeneas.tools.execute_task --example-words-multilevel --presets-word

Si vous utilisez Aeneas comme bibliothèque, définissez simplement les paramètres RuntimeConfiguration appropriés. Veuillez consulter le tutoriel de la ligne de commande pour plus de détails.

Licence

Aeneas est publié en vertu des termes de la licence générale GNU Affero version 3. Voir le fichier de licence pour plus de détails.

Les licences de code tiers et les fichiers incluses dans AENEAS peuvent être trouvées dans le répertoire des licences.

Aucun droit de copie n'a été blessé dans la réalisation de ce projet.

Soutien et contribution

Justificatif

Souhaitez-vous soutenir le développement d' Éneas ?

J'accepte des parrainages à

Correction de bogues,
Ajouter de nouvelles fonctionnalités,
améliorer la qualité et les performances du code,
Portez le code vers d'autres langues / plates-formes, et
améliorer la documentation.

N'hésitez pas à nous contacter.

Contributif

Si vous pensez avoir trouvé un bogue ou si vous avez une demande de fonctionnalité, veuillez utiliser le suivi du problème GitHub pour le soumettre.

Si vous souhaitez poser une question sur l'utilisation d'Aeneas , votre meilleure option consiste à envoyer un e-mail à la liste de diffusion.

Enfin, les contributions du code sont les bienvenues! Veuillez vous référer au Guide de contribution du code pour plus de détails sur les politiques de branche et le style de code à suivre.

Remerciements

Un grand merci à Nicola Montecchio , qui a suggéré d'utiliser MFCCS et DTW, et a co-développé le premier code expérimental pour aligner l'audio et le texte.

Paolo Bertasi , qui a développé les API et l'application Web pour la synchronisation de Readbeyond, a aidé à façonner la structure de ce package pour son utilisation asynchrone.

Chris Hubbard a préparé les fichiers pour l'emballage Aeneas en tant que Debian / Ubuntu .deb .

Daniel Bair a préparé la formule brew pour installer Aeneas et ses dépendances sur Mac OS X.

Daniel Bair , Chris Hubbard et Richard Margetts ont emballé les installateurs de Mac OS X et Windows.

Firat Ozdemir a contribué le code HTML / JS finetuneas pour les cartes de synchronisation de réglage fin dans le navigateur.

Willem van der Walt a contribué l'extrait de code pour sortir une carte de synchronisation au format TextGrid.

Chris Vaughn a contribué l'emballage macOS TTS.

Tous les puissants contributeurs GitHub et les membres du groupe Google.

Développer

Informations supplémentaires