Fantastische offene datenzentrierte KI
Open Source-Tooling für datenzentrierte KI für unstrukturierte Daten
Renumik -Spotlight | Kurationstool für unstrukturierte Daten, die Ihren Stapel mit dem datenzentrierten AI-Ökosystem verbinden. | | | | Argilla | Argilla hilft Domain -Experten und Datenteams, in kürzerer Zeit bessere NLP -Datensätze zu erstellen. | | |
Explorationsdatenanalyse (EDA)| Name | Datentyp | Beschreibung | Notizbuch |
|---|
| Verteilungen verstehen | Bild | Verwenden Sie die Bibliothek mit der Huggingface -Transformatoren, um Bildeinbettungen zu berechnen und den Datensatz basierend auf der Ähnlichkeitskarte und zusätzlichen Metdata zu erkunden. | |
Reinigung| Name | Datentyp | Beschreibung | Notizbuch |
|---|
| Duplikate erkennen | agnostisch | Verwenden Sie die Nervenbibliothek, um die nächsten Nachbarn im Einbettungsraum zu erkennen und Datenpunkte zu inspizieren, die Duplikate / nahezu Duplikate sind. | | | Ausreißer erkennen | agnostisch | Verwenden Sie die CleanLab -Bibliothek, um Ausreißerwerte basierend auf der Modellausgabe (Einbettung, Wahrscheinlichkeit) zu berechnen und Ausreißerkandidaten zu inspizieren. | | | Bildprobleme erkennen | Bild | Verwenden Sie die CleanVision -Bibliothek, um typische Bildprobleme (Helligkeit, Unschärfe, Seitenverhältnis, SNR und Duplikate) zu extrapakt und durch manuelle Inspektion kritische Segmente zu identifizieren. | |
Anmerkung| Name | Datentyp | Beschreibung | Notizbuch |
|---|
| Finden Sie Label -Inkonsistenzen | agnostisch | Verwenden Sie die CleanLab -Bibliothek, um Etikettenfehlerflags basierend auf Modellwahrscheinlichkeiten zu berechnen und kritische Datensegmente manuell zu inspizieren. | |
Modellieren| Name | Datentyp | Beschreibung | Notizbuch |
|---|
| Leckage erkennen | agnostisch | Verwenden Sie die nächsten Nachbarentfernungen, um Kandidaten für Datenleckage zu identifizieren und diese manuell zu prüfen | |
Validierung| Name | Datentyp | Beschreibung | Notizbuch |
|---|
| Entscheidungsgrenzen prüfen | agnostisch | Berechnen Sie einen Entscheidungsgrenzwert basierend auf Sicherheitsverhältnissen und überprüfen Sie die Ergebnisse in einem Streudiagramm. | |
Überwachung| Name | Datentyp | Beschreibung | Notizbuch |
|---|
| Datendrift erkennen | agnostisch | Berechnen Sie den Kosinusabstand des K-nearsten Nachbarn im Einbettungsraum als Driftabstand und inspizieren Sie kritische Segmente. | |
Weitere Lesen Um einen nützlichen Fokus zu halten und doppelte Arbeiten zu verhindern, haben wir einige Themen aus dieser Liste ausgeschlossen. Lesen Sie hier mehr über sie: - DCAI -Tools für tabellarische Daten. Es gibt eine großartige Liste dafür, die das Ydata -Team gewartet hat.
- Beschriftungstools. Obwohl die Kennzeichnung Teil des DCAI -Workflows ist, verweisen wir auf die großartige Liste des ZENML -Teams zu diesem Thema.
- MLOPS -Werkzeug. Wir schließen alle Themen aus, die eindeutig aus dem DCAI -Bereich herauskommen, und verweisen auf etablierte MLOPS -Listen für diese Tools.
- Forschungsarbeiten. Wir konzentrieren uns auf industrielle Open-Source-Tools und finden Sie diese Liste für eine forschungsorientierte Sicht auf DCAI.
Expandieren
Zusätzliche Informationen
Ähnliche Nachrichten
Alle
|