awesome open data centric ai
1.0.0
以数据为中心AI的开源工具在非结构化数据上
| 姓名 | 数据类型 | 描述 | 笔记本 |
|---|---|---|---|
| 了解分布 | 图像 | 使用HuggingFace Transformers库来计算图像嵌入,并根据相似性图和其他METDATA探索数据集。 |
| 姓名 | 数据类型 | 描述 | 笔记本 |
|---|---|---|---|
| 检测重复 | 不可知论 | 使用烦恼库来检测嵌入空间中最近的邻居,并检查重复 /附近重复的数据点。 | |
| 检测异常值 | 不可知论 | 使用清洁行库根据模型输出(嵌入,概率)来计算离群得分,并检查离群候选者。 | |
| 检测图像问题 | 图像 | 使用CleanVision库来推断典型的图像问题(亮度,模糊,宽高比,SNR和重复),并通过手动检查确定关键段。 |
| 姓名 | 数据类型 | 描述 | 笔记本 |
|---|---|---|---|
| 查找标签不一致 | 不可知论 | 使用清洁行库根据模型概率计算标签错误标志,并手动检查关键数据段。 |
| 姓名 | 数据类型 | 描述 | 笔记本 |
|---|---|---|---|
| 检测泄漏 | 不可知论 | 使用最近的邻居距离来识别候选人以进行数据泄漏并手动检查它们 |
| 姓名 | 数据类型 | 描述 | 笔记本 |
|---|---|---|---|
| 检查决策边界 | 不可知论 | 根据确定比率计算决策边界得分,并在散点图中检查结果。 |
| 姓名 | 数据类型 | 描述 | 笔记本 |
|---|---|---|---|
| 检测数据漂移 | 不可知论 | 计算嵌入空间中k-near最邻居的余弦距离作为漂移距离并检查关键段。 |
为了保持有用的重点并防止重复的工作,我们从此列表中排除了一些主题。在这里阅读有关它们的更多信息: