Descargar opensource voice tools - opensource voice tools Código fuente de descarga

opensource voice tools

Código Fuente de IA

1.0.0

Descargar

Una lista de herramientas de voz de código abierto

Introducción

La tecnología de voz está despegando a lo grande. Para las organizaciones, empresas e individuos que intentan dar sentido a la voz y dónde se encuentra en sus arquitecturas técnicas, puede ser realmente confuso comprender las ofertas de código abierto que existen.

Este repositorio es una lista de herramientas de voz de código abierto conocidas, estructuradas por donde esas herramientas se encuentran en la pila de voz.

Transcripción

Duca, Daniela. "Interrupción de la transcripción: cómo la automatización está transformando un método de investigación fundamental". Impacto de las ciencias sociales (blog), 17 de septiembre de 2019. Https://blogs.lse.ac.uk/impactofsocialsciences/2019/09/17/disrupting-transcription-hechnology-is-transforming-a-foundational-research-method/.

Wake Words

Discurso a texto

Sitio web	Nombre de la herramienta	Licencia	Descripción
openslr.org	Recursos abiertos del lenguaje del habla	N / A	Dirigido por @danpovey, quien también es un mantenedor clave de la herramienta Kaldi-asr Speech to Text
kaldi-asr.org	Kaldi Kit de herramientas de reconocimiento de voz automático.	Apache 2	Uno de los primeros kits de herramientas de reconocimiento de voz de código abierto. La referencia académica es: `Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., ... & Silovsky, J. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 workshop on automatic speech recognition and understanding (No. CONF). IEEE Signal Processing Society.`

Análisis de intención

Resolución de intención

Texto a discurso

Sitio web	Nombre de la herramienta	Licencia	Descripción
Flowtron por Nvidia	Una herramienta de sintetsis del habla basada en tacotrón que se puede ajustar para el tono y la prosodia, que lo distingue de otras implementaciones de TTS basadas en tacotrón	Apache2	Lanzado por primera vez en la conferencia GTC 2020 en mayo de 2020. El documento académico es Avaialble aquí. La cita es `Valle, R., Shih, K., Prenger, R., & Catanzaro, B. (2020). Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis. arXiv preprint arXiv:2005.05957.`

Mwiti, Derrick. "Una guía de 2019 para la síntesis del habla con aprendizaje profundo". Medium, 23 de junio de 2020. Https://heartbeat.fritz.ai/a-2019-guide-to-synthesis-with-deep-learning-630afcafb9dd.

^ Este es un gran artículo que explica las diferencias en las evoluciones o generaciones de texto hasta el habla, de concatenativo a paramétrico estadístico a generativo . Los enfoques TTS más modernos como Tacotron y Wavenet son enfoques generativos .

Chatbots y herramientas de interfaz de usuario conversacionales

Sitio web	Nombre de la herramienta	Licencia	Descripción
MindMeld de Cisco	.	Apache2	La plataforma MindMeld Conversational AI se encuentra entre las plataformas AI más avanzadas para construir aplicaciones conversacionales con calidad de producción. Es un marco de aprendizaje automático basado en Python que abarca todos los algoritmos y utilidades necesarios para este propósito. Evolucionó durante varios años de construir y desplegar docenas de las experiencias de conversación más avanzadas que se pueden lograr, MindMeld está optimizado para construir asistentes de conversación avanzados que demuestren una comprensión profunda de un caso o dominio de uso particular al tiempo que proporcionan experiencias de conversación altamente útiles y versátiles. La referencia académica para esta herramienta es:

Raghuvanshi, A., Carroll, L. y Raghunathan, K., 2018, noviembre. Desarrollo de interfaces conversacionales a nivel de producción con análisis semántico poco profundo. En Actas de la Conferencia de 2018 sobre métodos empíricos en procesamiento del lenguaje natural: demostraciones del sistema (pp. 157-162) |

Envoltorios asistentes de voz

Mycroft.ai: un asistente de voz de código abierto, en capas que funciona en una gama de hardware compatible con Linux, como X86 o dispositivos ARM como Raspberry Pi. Apoyado por una comunidad fuerte de desarrolladores de código abierto.
Proyecto Oval / Genie en Stanford: financiado por la Fundación Alfred P Sloan y por una subvención NIST, el Proyecto Oval de Stanford tiene como objetivo proporcionar una alternativa de código abierto a los asistentes de voz comerciales. El proyecto está actualmente en su infancia e intenta construir una comunidad de código abierto.

Procesamiento del lenguaje natural (PNL)

Python Natural Language Toolkit NLTK - NLTK es una plataforma líder para construir programas de Python para trabajar con datos de lenguaje humano. Proporciona interfaces fáciles de usar para más de 50 recursos corporales y léxicos, como WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para la clasificación, tokenización, derivación, etiquetado, análisis y razonamiento semántico, envoltorios para bibliotecas NLP de fuerza industrial y un foro de discusión activa.
ECCO Explicab: ECCO es una biblioteca de Python que proporciona explicación para PNL utilizando visualizaciones interactivas.
El código fuente de Detext Detext es un marco de comprensión de texto profundo para las tareas de clasificación, clasificación y generación de idiomas relacionados con PNL. Aprovecha la coincidencia semántica utilizando redes neuronales profundas para comprender los intentos de los miembros en los sistemas de búsqueda y recomendación. Como marco general de PNL, actualmente se puede aplicar a muchas tareas, incluida la clasificación de búsqueda y recomendación, clasificación de múltiples clases y tareas de comprensión de consultas. Publicado por el equipo de IA en LinkedIn.
PGLEX - Presentado por primera vez en la conferencia ICLDC 7 en 2021, PGLEX es un servicio léxico "bastante bueno" diseñado para facilitar la construcción de sitios web de diccionario y otras aplicaciones que incorporan datos léxicos. Con PGLEX, los investigadores pueden proporcionar entradas léxicas en formato JSON a una instancia de la API PGLEX y obtener resultados de búsqueda 'bastante buenos' sin requerir configuraciones específicas del lenguaje. Construido en Elasticsearch.

Sesgo en asistentes de voz y PNL

Artie Bias Corpus: un corpus y un conjunto de herramientas para detectar sesgo demográfico en los sistemas ASR.
[Blodgett, SL, Barocas, S., Daumé III, H. y Wallach, H. (2020). El lenguaje (tecnología) es poder: una encuesta crítica de "sesgo" en PNL. Arxiv Preprint Arxiv: 2005.14050.] https://arxiv.org/pdf/2005.14050.pdf

Reconocimiento de altavoces

Alize Open Source Toolkit para el reconocimiento de altavoces: un kit de herramientas de reconocimiento de altavoces de código abierto y de código abierto de Laboratoire Informatique d'Avignon, Francia.

Alineadores forzados

Los alineadores forzados ayudan a alinear las grabaciones de audio con la transcripción ortográfica

Eneas | Docs es una biblioteca de Python/C y un conjunto de herramientas para sincronizar automágicamente audio y texto (también conocido como alineación forzada).

Corpanos de voz e idioma

Base de datos de Berlín de discurso emocional: un corpus etiquetado (en alemán/deutsche) de discurso etiquetado con emociones.
La pila: la pila es un conjunto de datos de modelado de lenguaje de código abierto de 825 GIB diverso que consta de 22 conjuntos de datos de alta calidad más pequeños combinados juntos.

Herramientas de limpieza y reparación de datos

ActiveClean: ActiveClean es un marco de limpieza iterativo que puede volver a entrenar correctamente el modelo de aprendizaje automático cuando se limpian los datos, y proporciona un conjunto de optimizaciones para seleccionar los mejores datos que se deben limpiar. De esta manera, solo necesita limpiar un pequeño subconjunto de los datos para producir un modelo similar si se limpió el conjunto de datos completo. Escrito en Python.
DataLinter: el interno de datos identifica problemas potenciales (pelusas) en sus datos de capacitación de ML.
Holoclean - Sistema de aprendizaje automático para el enriquecimiento de datos

_ También hay BoostClean de la Universidad de Columbia, pero no puedo encontrar una referencia de código en ninguna parte de la web.

Traducción automática

No queda ningún idioma, publicado por Meta, el proyecto NLLB tiene como objetivo hacer que los idiomas de baja recursos sean más accesibles al proporcionar un modelo de traducción automática que puede traducirse entre 200 idiomas. El modelo se evalúa utilizando un punto de referencia traducido humano, Flores-200, y realiza un 44% mejor que las puntuaciones de última generación usando BLU.

Listados de documentos

@Ranking de discurso de Mutiann: este sitio clasifica los documentos académicos por citas como [Csrankings]. Armados por el usuario @Mutiann.

Glosario

Hay muchos términos y acrónimos en la tecnología de voz de código abierto. Esta sección proporciona explicaciones para cada uno de ellos.

Cognitive arbitration : el proceso que utiliza un asistente de voz para comprender qué servicios y habilidades están disponibles para él, dependiendo de su contexto , como estar en línea o fuera de línea.
CRF : campo aleatorio condicional. Un método de modelado estadístico que puede tener en cuenta el contexto. Utilizado en algunos software de extracción de intención y extracción semántica basado en la red neuronal.
LSTM : memoria a largo plazo a corto plazo. Se utiliza dentro de las redes neuronales recurrentes para ayudar a procesar secuencias de datos, como audio o habla. Para saber lo que probablemente vendrá a continuación , LSTM registra lo que vino anteriormente .
LVCSR : Vocabulario grande Reconocimiento de voz continuo. Utilizado en las herramientas de reconocimiento de voz para denotar que a) el vocabulario en el que funciona el reconocimiento no se ha restringido o restringido, por ejemplo, si se implementa en hardware integrado o de baja potencia que no puede manejar la memoria o los requisitos de calculación de un vocabulario grande y b) el reconocedor funciona continuamente , en contrato con una palabra o una palabra clave que se cede a la palabra de agitación de un despeje de agitación.

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2025-08-24
tamaño 17.74KB
Proviene de Github

Aplicaciones relacionadas

language tools

2024-11-11
biliLive tools

2024-11-03
GLM 4 Voice

2024-11-02
sra tools

2024-11-01
herramientas duende chino

2024-05-16
Herramientas PDF24

2023-07-13

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
ML stack

Código Fuente de IA

1.0.0
awesome free chatgpt

Código Fuente de IA

1.0.0
pywin_contextmenu

Código Fuente de IA

Version update
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo