멋진 오픈 데이터 중심 AI
구조화되지 않은 데이터에 대한 데이터 중심 AI를위한 오픈 소스 툴링
Renumics 스포트라이트 | 스택을 데이터 중심 AI 생태계에 연결하는 구조화되지 않은 데이터의 큐 레이션 도구. | | | | 아르 길라 | Argilla는 도메인 전문가와 데이터 팀이 더 적은 시간 안에 더 나은 NLP 데이터 세트를 구축하도록 도와줍니다. | | |
탐색 적 데이터 분석 (EDA)| 이름 | 데이터 유형 | 설명 | 공책 |
|---|
| 분포를 이해합니다 | 영상 | Huggingface Transformers 라이브러리를 사용하여 이미지 임베딩을 계산하고 유사성 맵 및 추가 메타 데이터를 기반으로 데이터 세트를 탐색하십시오. | |
청소| 이름 | 데이터 유형 | 설명 | 공책 |
|---|
| 복제를 감지합니다 | 비공식 | 짜증나는 라이브러리를 사용하여 임베딩 공간에서 가장 가까운 이웃을 감지하고 복제 / 근처 복제 인 데이터 포인트를 검사하십시오. | | | 이상치를 감지하십시오 | 비공식 | CleanLab 라이브러리를 사용하여 모델 출력 (임베딩, 확률)을 기반으로 이상적인 점수를 계산하고 특이 치 후보를 검사하십시오. | | | 이미지 문제를 감지합니다 | 영상 | CleanVision 라이브러리를 사용하여 전형적인 이미지 문제 (밝기, 블러, 종횡비, SNR 및 복제물)를 사용하여 수동 검사를 통해 임계 세그먼트를 식별하십시오. | |
주석| 이름 | 데이터 유형 | 설명 | 공책 |
|---|
| 레이블 불일치를 찾으십시오 | 비공식 | CleanLab 라이브러리를 사용하여 모델 확률을 기반으로 레이블 오류 플래그를 계산하고 중요한 데이터 세그먼트를 수동으로 검사하십시오. | |
모델링| 이름 | 데이터 유형 | 설명 | 공책 |
|---|
| 누출을 감지하십시오 | 비공식 | 가장 가까운 이웃 거리를 사용하여 데이터 유출 및 수동 검사에 대한 후보자를 식별하십시오. | |
확인| 이름 | 데이터 유형 | 설명 | 공책 |
|---|
| 결정 경계를 검사하십시오 | 비공식 | 확실성 비율에 따라 결정 경계 점수를 계산하고 결과를 산점도로 검사하십시오. | |
모니터링| 이름 | 데이터 유형 | 설명 | 공책 |
|---|
| 데이터 드리프트를 감지합니다 | 비공식 | 드리프트 거리로 삽입 된 공간에서 K-nearest 이웃의 코사인 거리를 계산하고 임계 세그먼트를 검사하십시오. | |
추가 독서 유용한 초점을 유지하고 중복 작업을 방지하기 위해이 목록에서 일부 주제를 제외했습니다. 그들에 대해 자세히 알아보십시오. - 테이블 데이터를위한 DCAI 도구. Ydata 팀이 관리하는 멋진 목록이 있습니다.
- 라벨링 도구. 라벨링은 DCAI 워크 플로의 일부이지만 해당 주제에 대한 Zenml 팀의 멋진 목록을 참조하십시오.
- Mlops 툴링. 우리는 DCAI 범위를 벗어난 모든 주제를 제외하고 이러한 도구에 대한 확립 된 MLOPS Awesome Lists를 참조합니다.
- 연구 논문. 우리는 산업용 오픈 소스 툴링에 중점을두고 DCAI에 대한 연구 지향적 견해는이 목록을 확인하십시오.
확장하다
|