awesome open data centric ai
1.0.0
以數據為中心AI的開源工具在非結構化數據上
| 姓名 | 數據類型 | 描述 | 筆記本 |
|---|---|---|---|
| 了解分佈 | 圖像 | 使用HuggingFace Transformers庫來計算圖像嵌入,並根據相似性圖和其他METDATA探索數據集。 |
| 姓名 | 數據類型 | 描述 | 筆記本 |
|---|---|---|---|
| 檢測重複 | 不可知論 | 使用煩惱庫來檢測嵌入空間中最近的鄰居,並檢查重複 /附近重複的數據點。 | |
| 檢測異常值 | 不可知論 | 使用清潔行庫根據模型輸出(嵌入,概率)來計算離群得分,並檢查離群候選者。 | |
| 檢測圖像問題 | 圖像 | 使用CleanVision庫來推斷典型的圖像問題(亮度,模糊,寬高比,SNR和重複),並通過手動檢查確定關鍵段。 |
| 姓名 | 數據類型 | 描述 | 筆記本 |
|---|---|---|---|
| 查找標籤不一致 | 不可知論 | 使用清潔行庫根據模型概率計算標籤錯誤標誌,並手動檢查關鍵數據段。 |
| 姓名 | 數據類型 | 描述 | 筆記本 |
|---|---|---|---|
| 檢測洩漏 | 不可知論 | 使用最近的鄰居距離來識別候選人以進行數據洩漏並手動檢查它們 |
| 姓名 | 數據類型 | 描述 | 筆記本 |
|---|---|---|---|
| 檢查決策邊界 | 不可知論 | 根據確定比率計算決策邊界得分,並在散點圖中檢查結果。 |
| 姓名 | 數據類型 | 描述 | 筆記本 |
|---|---|---|---|
| 檢測數據漂移 | 不可知論 | 計算嵌入空間中k-near最鄰居的餘弦距離作為漂移距離並檢查關鍵段。 |
為了保持有用的重點並防止重複的工作,我們從此列表中排除了一些主題。在這裡閱讀有關它們的更多信息: