IA de données ouvertes ouvertes impressionnantes
Outillage open source pour l'IA centrée sur les données sur des données non structurées
Spotlight Rennumics | Outil de conservation pour des données non structurées qui connectent votre pile à l'écosystème AI centré sur les données. | | | | Argilla | Argilla aide les experts du domaine et les équipes de données à créer de meilleurs ensembles de données NLP en moins de temps. | | |
Analyse des données exploratoires (EDA)| Nom | Type de données | Description | Carnet de notes |
|---|
| Comprendre les distributions | image | Utilisez la bibliothèque HuggingFace Transformers pour calculer les incorporations d'images et explorez l'ensemble de données en fonction de la carte de similitude et des MetData supplémentaires. | |
Nettoyage| Nom | Type de données | Description | Carnet de notes |
|---|
| Détecter les doublons | agnostique | Utilisez la bibliothèque ENAT pour détecter les voisins les plus proches dans l'espace d'incorporation et inspecter les points de données qui sont des doublons / des doublons proches. | | | Détecter les valeurs aberrantes | agnostique | Utilisez la bibliothèque CleanLab pour calculer les scores aberrants en fonction de la sortie du modèle (intégres, probabilités) et inspectez les candidats aberrants. | | | Détecter les problèmes d'image | image | Utilisez la bibliothèque CleanVision pour extrapacter les problèmes d'image typiques (luminosité, flou, rapport d'aspect, SNR et doublons) et identifier les segments critiques grâce à une inspection manuelle. | |
Annotation| Nom | Type de données | Description | Carnet de notes |
|---|
| Trouver des incohérences d'étiquette | agnostique | Utilisez la bibliothèque CleanLab pour calculer les indicateurs d'erreur d'étiquette en fonction des probabilités du modèle et inspectez manuellement les segments de données critiques. | |
Modélisation| Nom | Type de données | Description | Carnet de notes |
|---|
| Détecter les fuites | agnostique | Utilisez les distances des voisins les plus proches pour identifier les candidats pour la fuite de données et les inspecter manuels | |
Validation| Nom | Type de données | Description | Carnet de notes |
|---|
| Inspecter les limites de la décision | agnostique | Calculez un score de limite de décision en fonction des rapports de certitude et inspectez les résultats dans un tracé de dispersion. | |
Surveillance| Nom | Type de données | Description | Carnet de notes |
|---|
| Détecter la dérive des données | agnostique | Calculez la distance cosinus du voisin K-Deaarit dans l'espace d'incorporation comme distance de dérive et inspectez les segments critiques. | |
Dès la lecture Afin de garder un objectif utile et d'éviter les travaux en double, nous avons exclu certains sujets de cette liste. En savoir plus à leur sujet ici: - Outils DCAI pour les données tabulaires. Il y a une liste impressionnante pour celle entretenue par l'équipe Ydata.
- Outils d'étiquetage. Bien que l'étiquetage fasse partie du flux de travail DCAI, nous nous référons à la liste impressionnante de l'équipe Zenml sur ce sujet.
- Outillage mlops. Nous excluons tous les sujets qui sont clairement hors de la portée de DCAI et nous référons à des listes impressionnantes Mlops établies pour ces outils.
- Documents de recherche. Nous nous concentrons sur l'outillage open source prêt pour l'industrie, consultez cette liste pour une vue axée sur la recherche sur DCAI.
Développer
Informations supplémentaires
|