Téléchargement opensource voice tools - Téléchargement du code source opensource voice tools

opensource voice tools

Code Source AI

1.0.0

Télécharger

Une liste des outils vocaux open source

Introduction

La technologie vocale décolle en grande partie. Pour les organisations, les entreprises et les individus qui essaient de donner un sens à la voix et où elle se trouve dans leurs architectures techniques, il peut être vraiment déroutant de comprendre les offres open source qui existent.

Ce dépôt est une liste d'outils vocaux open source connus, structurés par où ces outils se trouvent dans la pile vocale.

Transcription

Duca, Daniela. «Perturbation de la transcription - comment l'automatisation transforme une méthode de recherche fondamentale.» Impact of Social Sciences (blog), 17 septembre 2019. Https://blogs.lse.ac.uk/impactofsocialsciences/2019/09/17/disrupting-transcription-How-technology-is-transformming-a-foundational-research-method/.

Mots de réveil

Discours au texte

Site web	Nom d'outil	Licence	Description
openslr.org	Ressources de la langue ouverte	N / A	Dirigé par @danpovey, qui est également un mainteneur clé de l'outil de discours Kaldi-ASR
kaldi-asr.org	Kaldi Automatic Speech Reconnaissance Toolkit.	Apache 2	L'une des premières boîtes d'outils de reconnaissance vocale open source. La référence académique est: `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

Analyse d'intention

Résolution d'intention

Texte à la parole

Site web	Nom d'outil	Licence	Description
Flowtron par nvidia	Un outil de synthsis de la parole basé sur le tacotron qui peut être modifié pour Pitch and Prosody, le distinguant des autres implémentations TTS basées sur le tacotron	Apache2	Sortie pour la première fois lors de la conférence du GTC 2020 en mai 2020. Le journal académique est avaialble ici. Citation Is `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick. «Un guide de 2019 pour la synthèse de la parole avec l'apprentissage en profondeur.» Medium, 23 juin 2020. Https://heartbeat.fritz.ai/a-2019-guide-to-disech-synthesis-with-deep-learning-630afcafb9dd.

^ Il s'agit d'un excellent article qui explique les différences dans les évolutions ou les générations de texte à la parole - de la concaténative au paramétrique statistique à générative . Des approches TTS plus modernes comme le tacotron et le wavenet sont des approches génératives .

Chatbots et outils d'interface utilisateur conversationnels

Site web	Nom d'outil	Licence	Description
Mindmeld par Cisco	.	Apache2	La plate-forme d'IA conversationnelle Mindmeld est parmi les plates-formes d'IA les plus avancées pour créer des applications conversationnelles de qualité de production. Il s'agit d'un cadre d'apprentissage automatique basé sur Python qui englobe tous les algorithmes et utilitaires requis à cet effet. A évolué sur plusieurs années de construction et de déploiement de dizaines des expériences conversationnelles les plus avancées réalisables, MindMeld est optimisée pour créer des assistants conversationnels avancés qui démontrent une compréhension approfondie d'un cas d'utilisation ou d'un domaine particulier tout en offrant des expériences conversationnelles très utiles et polyvalentes. La référence académique pour cet outil est:

Raghuvanshi, A., Carroll, L. et Raghunathan, K., 2018, novembre. Développer des interfaces conversationnelles au niveau de la production avec l'analyse sémantique peu profonde. Dans les actes de la Conférence de 2018 sur les méthodes empiriques en matière de traitement du langage naturel: démonstrations du système (pp. 157-162) |

Emballages vocaux

MYCROFT.AI - Un assistant vocal open source en couches qui fonctionne sur une gamme de matériel compatible Linux, tels que x86 ou des appareils ARM tels que Raspberry Pi. Soutenu par une solide communauté de développeurs open source.
Projet ovale / génie à Stanford - Financé par la Fondation Alfred P Sloan et par une subvention NIST, le projet ovale de Stanford vise à fournir une alternative open source aux assistants vocaux commerciaux. Le projet en est actuellement à ses balbutiements et tente de construire une communauté open source.

Traitement du langage naturel (PNL)

Python Natural Language Toolkit NLTK - NLTK est une plate-forme de premier plan pour créer des programmes Python pour travailler avec les données du langage humain. Il fournit des interfaces faciles à utiliser à plus de 50 corpus et des ressources lexicales telles que WordNet, ainsi qu'une suite de bibliothèques de traitement de texte pour la classification, la tokenisation, la tige, le marquage, l'analyse et le raisonnement sémantique, les courtiers pour les bibliothèques NLP de force industrielle et un forum de discussion actif.
ECCO Explication - ECCO est une bibliothèque Python qui fournit une explication de la PNL à l'aide de visualisations interactives.
Le code source DETEXT Detext est un cadre de compréhension du texte profond pour les tâches de classement, de classification et de génération de langues liées aux NLP. Il exploite la correspondance sémantique à l'aide de réseaux de neurones profonds pour comprendre les intentions des membres dans les systèmes de recherche et de recommandation. En tant que cadre Général NLP, le DISText peut actuellement être appliqué à de nombreuses tâches, y compris le classement de recherche et de recommandation, de classification multi-classiques et de tâches de compréhension des requêtes. Publié par l'équipe AI de LinkedIn.
PGLEX - Présenté pour la première fois lors de la conférence ICLDC 7 en 2021, PGLEX est un «très bon» service lexical conçu pour faciliter la construction de sites Web de dictionnaire et d'autres applications qui intègrent des données lexicales. Avec PGLEX, les chercheurs peuvent fournir des entrées lexicales au format JSON à une instance de l'API PLGEX et obtenir des résultats de recherche «assez bons» sans nécessiter de configurations spécifiques à la langue. Construit sur Elasticsearch.

Biais dans les assistants vocaux et la PNL

Artie Bias Corpus - un corpus et un ensemble d'outils pour détecter les biais démographiques dans les systèmes ASR.
[Blodgett, SL, Barocas, S., Daumé III, H., et Wallach, H. (2020). Le langage (technologie) est le pouvoir: une étude critique du "biais" dans la PNL. Arxiv Preprint Arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

Reconnaissance de l'orateur

Alize Open Source Toolkit pour la reconnaissance des conférenciers - une boîte à outils de reconnaissance de haut-parleur Open Source de Laboratoire Informatique d'Avignon, France.

Aligneurs forcés

Les aligneurs forcés aident à aligner les enregistrements audio avec la transcription orthographique

Énée | DOCS est une bibliothèque Python / C et un ensemble d'outils pour synchroniser automatiquement l'audio et le texte (alignement forcé).

Corpus de voix et de langue

Berlin Berlin Databe of Emotional Speech - Un corpus étiqueté (en allemand / deutsche) de discours étiqueté avec des émotions.
La pile - La pile est un ensemble de données de modélisation de la langue open source 825 gib qui se compose de 22 ensembles de données plus petits et de haute qualité combinés ensemble.

Outils de nettoyage et de réparation des données

ActiveClean - ActiveClean est un cadre de nettoyage itératif qui peut recycler correctement le modèle d'apprentissage automatique lorsque les données sont nettoyées, et fournit un ensemble d'optimisations pour sélectionner les meilleures données à nettoyer. De cette façon, il vous suffit de nettoyer un petit sous-ensemble des données afin de produire un modèle similaire à si l'ensemble de données complet a été nettoyé. Écrit en python.
DATALINTER - Le linter de données identifie les problèmes potentiels (peluches) dans vos données de formation ML.
Holoclean - Système d'apprentissage automatique pour l'enrichissement des données

_Il y a également BoostClean de l'Université Columbia, mais je ne trouve aucune référence de code nulle part sur le Web.

Traduction automatique

No Language Left Behind - publié par Meta, le projet NLLB vise à rendre les langages à faible ressource plus accessibles en fournissant un modèle de traduction machine qui peut traduire entre 200 langues. Le modèle est évalué à l'aide d'une référence traduite humaine, Flores-200, et effectuer 44% mieux que les scores de pointe de la pointe en utilisant BLEU.

Listes des documents

@ Mutiann's Discours Classs - Ce site classe les documents académiques par des citations comme [CSRANKINGS]. Assemblé par l'utilisateur @Mutiann.

Glossaire

Il existe de nombreux termes et acronymes dans la technologie vocale open source. Cette section fournit des explications pour chacun d'eux.

Cognitive arbitration : le processus qu'un assistant vocal utilise pour comprendre quels services et compétences sont disponibles, selon son contexte - comme être en ligne ou hors ligne.
CRF : champ aléatoire conditionnel. Une méthode de modélisation statistique qui peut prendre en compte le contexte. Utilisé dans certains logiciels d'extraction d'intention et d'extraction sémantique basés sur le réseau neural.
LSTM : Mémoire à court terme. Utilisé dans les réseaux de neurones récurrents pour aider à traiter les séquences de données, telles que l'audio ou la parole. Afin de savoir ce qui est susceptible de venir ensuite , LSTM enregistre ce qui est venu précédemment .
LVCSR : GRAND VOCABULAIRE CONCEPTION DU VOYAGE CONTINU. Utilisé dans les outils de reconnaissance vocale pour indiquer que a) le vocabulaire sur lequel fonctionne le reconnaissance n'a pas été restreint ou contraint - par exemple s'il est déployé sur un matériel intégré ou de faible puissance qui ne peut pas gérer la mémoire ou calculer les exigences d'un grand vocabulaire et b) le reconnaissance fonctionne en continu , en contraste avec un mot de sillage ou un mot de clé de temps qui contrôle le STT, un mot de réveil est-il détecté.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-08-24
taille 17.74KB
Provenant de Github

Applications connexes

language tools

2024-11-11
biliLive tools

2024-11-03
GLM 4 Voice

2024-11-02
sra tools

2024-11-01
outils gobelins chinois

2024-05-16
Outils PDF24

2023-07-13

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout