AI abierta de datos abiertos centrados en los datos
Herramientas de código abierto para la IA centrada en datos en datos no estructurados
Spotlight de Renumics | Herramienta de curación para datos no estructurados que conecta su pila al ecosistema de IA centrado en los datos. | | | | Argilla | Argilla ayuda a expertos en dominios y equipos de datos a construir mejores conjuntos de datos de PNL en menos tiempo. | | |
Análisis de datos exploratorios (EDA)| Nombre | Tipo de datos | Descripción | Computadora portátil |
|---|
| Comprender las distribuciones | imagen | Use la biblioteca Huggingface Transformers para calcular los incrustaciones de imágenes y explore el conjunto de datos en función del mapa de similitud y los metdatos adicionales. | |
Limpieza| Nombre | Tipo de datos | Descripción | Computadora portátil |
|---|
| Detectar duplicados | agnóstico | Use la biblioteca molesta para detectar vecinos más cercanos en el espacio de incrustación e inspeccionar los puntos de datos que son duplicados / casi duplicados. | | | Detectar valores atípicos | agnóstico | Use la biblioteca CleanLab para calcular los puntajes atípicos según la salida del modelo (incrustaciones, probabilidades) e inspeccionar candidatos atípicos. | | | Detectar problemas de imagen | imagen | Use la biblioteca CleanVision para extrapactar problemas de imagen típicos (brillo, desenfoque, relación de aspecto, SNR y duplicados) e identificar segmentos críticos a través de la inspección manual. | |
Anotación| Nombre | Tipo de datos | Descripción | Computadora portátil |
|---|
| Encontrar inconsistencias de etiqueta | agnóstico | Use la biblioteca CleanLab para calcular los indicadores de error de etiqueta en función de las probabilidades de modelo e inspeccionar manualmente los segmentos de datos críticos. | |
Modelado| Nombre | Tipo de datos | Descripción | Computadora portátil |
|---|
| Detectar fugas | agnóstico | Use distancias vecinas más cercanas para identificar a los candidatos para la fuga de datos y el manual inspeccionarlas | |
Validación| Nombre | Tipo de datos | Descripción | Computadora portátil |
|---|
| Inspeccionar los límites de decisión | agnóstico | Calcule un puntaje de límite de decisión basado en relaciones de certeza e inspeccione los resultados en una gráfica de dispersión. | |
Escucha| Nombre | Tipo de datos | Descripción | Computadora portátil |
|---|
| Detectar la deriva de datos | agnóstico | Calcule la distancia coseno del vecino K-near en el espacio de incrustación como la distancia de deriva e inspeccione segmentos críticos. | |
Lectura adicional Para mantener un enfoque útil y evitar el trabajo duplicado, excluimos algunos temas de esta lista. Lea más sobre ellos aquí: - Herramientas DCAI para datos tabulares. Hay una lista increíble para la mantenida por el equipo de YData.
- Herramientas de etiquetado. Aunque el etiquetado es parte del flujo de trabajo DCAI, nos referimos a la increíble lista del equipo de ZenML sobre ese tema.
- MLOPS HERRAMIENTOS. Excluyimos todos los temas que están claramente fuera del alcance de DCAI y nos referimos a las listas impresionantes de MLOPS establecidas para estas herramientas.
- Documentos de investigación. Nos centramos en las herramientas de código abierto listos para industriales, consulte esta lista para obtener una visión orientada a la investigación sobre DCAI.
Expandir
Aplicaciones relacionadas
Información relacionada
Todo
|