IA aberta incrível de dados abertos
Ferramentas de código aberto para IA centrada em dados em dados não estruturados
Renumics Spotlight | Ferramenta de curadoria para dados não estruturados que conectam sua pilha ao ecossistema de AI centrado em dados. | | | | Argilla | Argilla ajuda especialistas em domínio e equipes de dados a criar melhores conjuntos de dados de PNL em menos tempo. | | |
Análise de dados exploratórios (EDA)| Nome | Tipo de dados | Descrição | Caderno |
|---|
| Entender distribuições | imagem | Use a Biblioteca de Transformers do Huggingface para calcular incorporações de imagem e explorar o conjunto de dados com base no mapa de similaridade e no MetData adicional. | |
Limpeza| Nome | Tipo de dados | Descrição | Caderno |
|---|
| Detectar duplicatas | agnóstico | Use a Biblioteca Irrive para detectar vizinhos mais próximos no espaço de incorporação e inspecione pontos de dados que são duplicados / quase duplicatas. | | | Detectar outliers | agnóstico | Use a biblioteca CleanLab para calcular as pontuações externas com base na saída do modelo (incorporação, probabilidades) e inspecionar candidatos externos. | | | Detectar problemas de imagem | imagem | Use a Biblioteca de CleanVision para extrapactar problemas de imagem típicos (brilho, borrão, proporção, SNR e duplicados) e identifique segmentos críticos por meio da inspeção manual. | |
Anotação| Nome | Tipo de dados | Descrição | Caderno |
|---|
| Encontre inconsistências do rótulo | agnóstico | Use a biblioteca CleanLab para calcular sinalizadores de erro do rótulo com base nas probabilidades do modelo e inspecionar manualmente segmentos de dados críticos. | |
Modelagem| Nome | Tipo de dados | Descrição | Caderno |
|---|
| Detectar vazamento | agnóstico | Use distâncias mais próximas do vizinho para identificar candidatos para vazamento de dados e inspecioná -los manuais | |
Validação| Nome | Tipo de dados | Descrição | Caderno |
|---|
| Inspecione os limites da decisão | agnóstico | Calcule uma pontuação no limite de decisão com base em índices de certeza e inspecione os resultados em um gráfico de dispersão. | |
Monitoramento| Nome | Tipo de dados | Descrição | Caderno |
|---|
| Detecte a deriva dos dados | agnóstico | Calcule a distância cosseno do vizinho mais antigo no espaço de incorporação como a distância de deriva e inspecione os segmentos críticos. | |
Leitura adicional Para manter um foco útil e impedir o trabalho duplicado, excluímos alguns tópicos desta lista. Leia mais sobre eles aqui: - Ferramentas DCAI para dados tabulares. Há uma lista incrível para a mantida pela equipe YDATA.
- Ferramentas de rotulagem. Embora a rotulagem faça parte do fluxo de trabalho da DCAI, nos referimos à incrível lista da equipe ZenML sobre esse tópico.
- Ferramentas de Mlops. Excluímos todos os tópicos que estão claramente fora do escopo da DCAI e nos referimos a listas impressionantes estabelecidas para essas ferramentas.
- Trabalhos de pesquisa. Nós nos concentramos em ferramentas de código aberto pronto para industrial, confira esta lista para obter uma visão orientada à pesquisa sobre o DCAI.
Expandir
Informações Relacionadas
Todos
|