La tecnología de voz está despegando a lo grande. Para las organizaciones, empresas e individuos que intentan dar sentido a la voz y dónde se encuentra en sus arquitecturas técnicas, puede ser realmente confuso comprender las ofertas de código abierto que existen.
Este repositorio es una lista de herramientas de voz de código abierto conocidas, estructuradas por donde esas herramientas se encuentran en la pila de voz.
| Sitio web | Nombre de la herramienta | Licencia | Descripción |
|---|---|---|---|
| openslr.org | Recursos abiertos del lenguaje del habla | N / A | Dirigido por @danpovey, quien también es un mantenedor clave de la herramienta Kaldi-asr Speech to Text |
| kaldi-asr.org | Kaldi Kit de herramientas de reconocimiento de voz automático. | Apache 2 | Uno de los primeros kits de herramientas de reconocimiento de voz de código abierto. La referencia académica es: Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society. |
| Sitio web | Nombre de la herramienta | Licencia | Descripción |
|---|---|---|---|
| Flowtron por Nvidia | Una herramienta de sintetsis del habla basada en tacotrón que se puede ajustar para el tono y la prosodia, que lo distingue de otras implementaciones de TTS basadas en tacotrón | Apache2 | Lanzado por primera vez en la conferencia GTC 2020 en mayo de 2020. El documento académico es Avaialble aquí. La cita es Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957. |
^ Este es un gran artículo que explica las diferencias en las evoluciones o generaciones de texto hasta el habla, de concatenativo a paramétrico estadístico a generativo . Los enfoques TTS más modernos como Tacotron y Wavenet son enfoques generativos .
| Sitio web | Nombre de la herramienta | Licencia | Descripción |
|---|---|---|---|
| MindMeld de Cisco | . | Apache2 | La plataforma MindMeld Conversational AI se encuentra entre las plataformas AI más avanzadas para construir aplicaciones conversacionales con calidad de producción. Es un marco de aprendizaje automático basado en Python que abarca todos los algoritmos y utilidades necesarios para este propósito. Evolucionó durante varios años de construir y desplegar docenas de las experiencias de conversación más avanzadas que se pueden lograr, MindMeld está optimizado para construir asistentes de conversación avanzados que demuestren una comprensión profunda de un caso o dominio de uso particular al tiempo que proporcionan experiencias de conversación altamente útiles y versátiles. La referencia académica para esta herramienta es: |
Raghuvanshi, A., Carroll, L. y Raghunathan, K., 2018, noviembre. Desarrollo de interfaces conversacionales a nivel de producción con análisis semántico poco profundo. En Actas de la Conferencia de 2018 sobre métodos empíricos en procesamiento del lenguaje natural: demostraciones del sistema (pp. 157-162) |
Mycroft.ai: un asistente de voz de código abierto, en capas que funciona en una gama de hardware compatible con Linux, como X86 o dispositivos ARM como Raspberry Pi. Apoyado por una comunidad fuerte de desarrolladores de código abierto.
Proyecto Oval / Genie en Stanford: financiado por la Fundación Alfred P Sloan y por una subvención NIST, el Proyecto Oval de Stanford tiene como objetivo proporcionar una alternativa de código abierto a los asistentes de voz comerciales. El proyecto está actualmente en su infancia e intenta construir una comunidad de código abierto.
Python Natural Language Toolkit NLTK - NLTK es una plataforma líder para construir programas de Python para trabajar con datos de lenguaje humano. Proporciona interfaces fáciles de usar para más de 50 recursos corporales y léxicos, como WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para la clasificación, tokenización, derivación, etiquetado, análisis y razonamiento semántico, envoltorios para bibliotecas NLP de fuerza industrial y un foro de discusión activa.
ECCO Explicab: ECCO es una biblioteca de Python que proporciona explicación para PNL utilizando visualizaciones interactivas.
El código fuente de Detext Detext es un marco de comprensión de texto profundo para las tareas de clasificación, clasificación y generación de idiomas relacionados con PNL. Aprovecha la coincidencia semántica utilizando redes neuronales profundas para comprender los intentos de los miembros en los sistemas de búsqueda y recomendación. Como marco general de PNL, actualmente se puede aplicar a muchas tareas, incluida la clasificación de búsqueda y recomendación, clasificación de múltiples clases y tareas de comprensión de consultas. Publicado por el equipo de IA en LinkedIn.
PGLEX - Presentado por primera vez en la conferencia ICLDC 7 en 2021, PGLEX es un servicio léxico "bastante bueno" diseñado para facilitar la construcción de sitios web de diccionario y otras aplicaciones que incorporan datos léxicos. Con PGLEX, los investigadores pueden proporcionar entradas léxicas en formato JSON a una instancia de la API PGLEX y obtener resultados de búsqueda 'bastante buenos' sin requerir configuraciones específicas del lenguaje. Construido en Elasticsearch.
Artie Bias Corpus: un corpus y un conjunto de herramientas para detectar sesgo demográfico en los sistemas ASR.
[Blodgett, SL, Barocas, S., Daumé III, H. y Wallach, H. (2020). El lenguaje (tecnología) es poder: una encuesta crítica de "sesgo" en PNL. Arxiv Preprint Arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf
Los alineadores forzados ayudan a alinear las grabaciones de audio con la transcripción ortográfica
ActiveClean: ActiveClean es un marco de limpieza iterativo que puede volver a entrenar correctamente el modelo de aprendizaje automático cuando se limpian los datos, y proporciona un conjunto de optimizaciones para seleccionar los mejores datos que se deben limpiar. De esta manera, solo necesita limpiar un pequeño subconjunto de los datos para producir un modelo similar si se limpió el conjunto de datos completo. Escrito en Python.
DataLinter: el interno de datos identifica problemas potenciales (pelusas) en sus datos de capacitación de ML.
Holoclean - Sistema de aprendizaje automático para el enriquecimiento de datos
_ También hay BoostClean de la Universidad de Columbia, pero no puedo encontrar una referencia de código en ninguna parte de la web.
Hay muchos términos y acrónimos en la tecnología de voz de código abierto. Esta sección proporciona explicaciones para cada uno de ellos.
Cognitive arbitration : el proceso que utiliza un asistente de voz para comprender qué servicios y habilidades están disponibles para él, dependiendo de su contexto , como estar en línea o fuera de línea.
CRF : campo aleatorio condicional. Un método de modelado estadístico que puede tener en cuenta el contexto. Utilizado en algunos software de extracción de intención y extracción semántica basado en la red neuronal.
LSTM : memoria a largo plazo a corto plazo. Se utiliza dentro de las redes neuronales recurrentes para ayudar a procesar secuencias de datos, como audio o habla. Para saber lo que probablemente vendrá a continuación , LSTM registra lo que vino anteriormente .
LVCSR : Vocabulario grande Reconocimiento de voz continuo. Utilizado en las herramientas de reconocimiento de voz para denotar que a) el vocabulario en el que funciona el reconocimiento no se ha restringido o restringido, por ejemplo, si se implementa en hardware integrado o de baja potencia que no puede manejar la memoria o los requisitos de calculación de un vocabulario grande y b) el reconocedor funciona continuamente , en contrato con una palabra o una palabra clave que se cede a la palabra de agitación de un despeje de agitación.