La technologie vocale décolle en grande partie. Pour les organisations, les entreprises et les individus qui essaient de donner un sens à la voix et où elle se trouve dans leurs architectures techniques, il peut être vraiment déroutant de comprendre les offres open source qui existent.
Ce dépôt est une liste d'outils vocaux open source connus, structurés par où ces outils se trouvent dans la pile vocale.
| Site web | Nom d'outil | Licence | Description |
|---|---|---|---|
| openslr.org | Ressources de la langue ouverte | N / A | Dirigé par @danpovey, qui est également un mainteneur clé de l'outil de discours Kaldi-ASR |
| kaldi-asr.org | Kaldi Automatic Speech Reconnaissance Toolkit. | Apache 2 | L'une des premières boîtes d'outils de reconnaissance vocale open source. La référence académique est: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| Site web | Nom d'outil | Licence | Description |
|---|---|---|---|
| Flowtron par nvidia | Un outil de synthsis de la parole basé sur le tacotron qui peut être modifié pour Pitch and Prosody, le distinguant des autres implémentations TTS basées sur le tacotron | Apache2 | Sortie pour la première fois lors de la conférence du GTC 2020 en mai 2020. Le journal académique est avaialble ici. Citation Is Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ Il s'agit d'un excellent article qui explique les différences dans les évolutions ou les générations de texte à la parole - de la concaténative au paramétrique statistique à générative . Des approches TTS plus modernes comme le tacotron et le wavenet sont des approches génératives .
| Site web | Nom d'outil | Licence | Description |
|---|---|---|---|
| Mindmeld par Cisco | . | Apache2 | La plate-forme d'IA conversationnelle Mindmeld est parmi les plates-formes d'IA les plus avancées pour créer des applications conversationnelles de qualité de production. Il s'agit d'un cadre d'apprentissage automatique basé sur Python qui englobe tous les algorithmes et utilitaires requis à cet effet. A évolué sur plusieurs années de construction et de déploiement de dizaines des expériences conversationnelles les plus avancées réalisables, MindMeld est optimisée pour créer des assistants conversationnels avancés qui démontrent une compréhension approfondie d'un cas d'utilisation ou d'un domaine particulier tout en offrant des expériences conversationnelles très utiles et polyvalentes. La référence académique pour cet outil est: |
Raghuvanshi, A., Carroll, L. et Raghunathan, K., 2018, novembre. Développer des interfaces conversationnelles au niveau de la production avec l'analyse sémantique peu profonde. Dans les actes de la Conférence de 2018 sur les méthodes empiriques en matière de traitement du langage naturel: démonstrations du système (pp. 157-162) |
MYCROFT.AI - Un assistant vocal open source en couches qui fonctionne sur une gamme de matériel compatible Linux, tels que x86 ou des appareils ARM tels que Raspberry Pi. Soutenu par une solide communauté de développeurs open source.
Projet ovale / génie à Stanford - Financé par la Fondation Alfred P Sloan et par une subvention NIST, le projet ovale de Stanford vise à fournir une alternative open source aux assistants vocaux commerciaux. Le projet en est actuellement à ses balbutiements et tente de construire une communauté open source.
Python Natural Language Toolkit NLTK - NLTK est une plate-forme de premier plan pour créer des programmes Python pour travailler avec les données du langage humain. Il fournit des interfaces faciles à utiliser à plus de 50 corpus et des ressources lexicales telles que WordNet, ainsi qu'une suite de bibliothèques de traitement de texte pour la classification, la tokenisation, la tige, le marquage, l'analyse et le raisonnement sémantique, les courtiers pour les bibliothèques NLP de force industrielle et un forum de discussion actif.
ECCO Explication - ECCO est une bibliothèque Python qui fournit une explication de la PNL à l'aide de visualisations interactives.
Le code source DETEXT Detext est un cadre de compréhension du texte profond pour les tâches de classement, de classification et de génération de langues liées aux NLP. Il exploite la correspondance sémantique à l'aide de réseaux de neurones profonds pour comprendre les intentions des membres dans les systèmes de recherche et de recommandation. En tant que cadre Général NLP, le DISText peut actuellement être appliqué à de nombreuses tâches, y compris le classement de recherche et de recommandation, de classification multi-classiques et de tâches de compréhension des requêtes. Publié par l'équipe AI de LinkedIn.
PGLEX - Présenté pour la première fois lors de la conférence ICLDC 7 en 2021, PGLEX est un «très bon» service lexical conçu pour faciliter la construction de sites Web de dictionnaire et d'autres applications qui intègrent des données lexicales. Avec PGLEX, les chercheurs peuvent fournir des entrées lexicales au format JSON à une instance de l'API PLGEX et obtenir des résultats de recherche «assez bons» sans nécessiter de configurations spécifiques à la langue. Construit sur Elasticsearch.
Artie Bias Corpus - un corpus et un ensemble d'outils pour détecter les biais démographiques dans les systèmes ASR.
[Blodgett, SL, Barocas, S., Daumé III, H., et Wallach, H. (2020). Le langage (technologie) est le pouvoir: une étude critique du "biais" dans la PNL. Arxiv Preprint Arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
Les aligneurs forcés aident à aligner les enregistrements audio avec la transcription orthographique
ActiveClean - ActiveClean est un cadre de nettoyage itératif qui peut recycler correctement le modèle d'apprentissage automatique lorsque les données sont nettoyées, et fournit un ensemble d'optimisations pour sélectionner les meilleures données à nettoyer. De cette façon, il vous suffit de nettoyer un petit sous-ensemble des données afin de produire un modèle similaire à si l'ensemble de données complet a été nettoyé. Écrit en python.
DATALINTER - Le linter de données identifie les problèmes potentiels (peluches) dans vos données de formation ML.
Holoclean - Système d'apprentissage automatique pour l'enrichissement des données
_Il y a également BoostClean de l'Université Columbia, mais je ne trouve aucune référence de code nulle part sur le Web.
Il existe de nombreux termes et acronymes dans la technologie vocale open source. Cette section fournit des explications pour chacun d'eux.
Cognitive arbitration : le processus qu'un assistant vocal utilise pour comprendre quels services et compétences sont disponibles, selon son contexte - comme être en ligne ou hors ligne.
CRF : champ aléatoire conditionnel. Une méthode de modélisation statistique qui peut prendre en compte le contexte. Utilisé dans certains logiciels d'extraction d'intention et d'extraction sémantique basés sur le réseau neural.
LSTM : Mémoire à court terme. Utilisé dans les réseaux de neurones récurrents pour aider à traiter les séquences de données, telles que l'audio ou la parole. Afin de savoir ce qui est susceptible de venir ensuite , LSTM enregistre ce qui est venu précédemment .
LVCSR : GRAND VOCABULAIRE CONCEPTION DU VOYAGE CONTINU. Utilisé dans les outils de reconnaissance vocale pour indiquer que a) le vocabulaire sur lequel fonctionne le reconnaissance n'a pas été restreint ou contraint - par exemple s'il est déployé sur un matériel intégré ou de faible puissance qui ne peut pas gérer la mémoire ou calculer les exigences d'un grand vocabulaire et b) le reconnaissance fonctionne en continu , en contraste avec un mot de sillage ou un mot de clé de temps qui contrôle le STT, un mot de réveil est-il détecté.