素晴らしいオープンデータ中心のAI
非構造化データに関するデータ中心のAIのオープンソースツール
Renumics Spotlight | スタックをデータ中心のAIエコシステムに接続する非構造化データ用のキュレーションツール。 | | | | アーギラ | Argillaは、ドメインの専門家とデータチームがより低い時間でより良いNLPデータセットを構築するのを支援します。 | | |
探索的データ分析(EDA)| 名前 | データ型 | 説明 | ノート |
|---|
| 分布を理解します | 画像 | Huggingface Transformersライブラリを使用して、画像の埋め込みを計算し、類似性マップと追加のMetDataに基づいてデータセットを探索します。 | |
クリーニング| 名前 | データ型 | 説明 | ノート |
|---|
| 複製を検出します | 不可知論者 | イライラするライブラリを使用して、埋め込みスペースの最近隣人を検出し、複製 /複製に近いデータポイントを検査します。 | | | 外れ値を検出します | 不可知論者 | CleanLabライブラリを使用して、モデルの出力(埋め込み、確率)に基づいて外れ値スコアを計算し、外れ値の候補を検査します。 | | | 画像の問題を検出します | 画像 | CleanVisionライブラリを使用して、典型的な画像の問題(明るさ、ぼかし、アスペクト比、SNR、および複製)を外挿し、手動検査を通じて重要なセグメントを特定します。 | |
注釈| 名前 | データ型 | 説明 | ノート |
|---|
| ラベルの矛盾を見つけます | 不可知論者 | CleanLabライブラリを使用して、モデルの確率に基づいてラベルエラーフラグを計算し、重要なデータセグメントを手動で検査します。 | |
モデリング| 名前 | データ型 | 説明 | ノート |
|---|
| 漏れを検出します | 不可知論者 | 最近隣の距離を使用して、データの漏れと手動でそれらを検査するための候補者を特定します | |
検証| 名前 | データ型 | 説明 | ノート |
|---|
| 決定の境界を検査します | 不可知論者 | 確実性比率に基づいて決定境界スコアを計算し、散布図で結果を検査します。 | |
監視| 名前 | データ型 | 説明 | ノート |
|---|
| データドリフトを検出します | 不可知論者 | 埋め込み空間内のk-nearest隣接のコサイン距離をドリフト距離として計算し、重要なセグメントを検査します。 | |
さらに読む有用な焦点を維持し、作業の重複を防ぐために、このリストからいくつかのトピックを除外しました。それらの詳細をこちらをご覧ください: - 表形式データ用のDCAIツール。 YDATAチームが維持している素晴らしいリストがあります。
- ラベル付けツール。ラベル付けはDCAIワークフローの一部ですが、そのトピックに関するZenMLチームの素晴らしいリストを参照してください。
- mlopsツール。 DCAIスコープから明らかに明らかになっているすべてのトピックを除外し、これらのツールの確立されたMLOPSの素晴らしいリストを参照します。
- 研究論文。産業用のオープンソースツーリングに焦点を当て、DCAIに関する研究指向の見解については、このリストをご覧ください。
拡大する
|