
우리는 과거, 현재 및 미래의 흥미 진진한 방향으로 데이터 중심 AI에서 이루어진 리소스 및 진행 상황 목록을 수집하고 있습니다. 이 블로그는 데이터 중심 AI 로의 여행에 대해 이야기 하며이 블로그에서 AI의 관점으로 데이터에 대해 흥분하는 이유를 분명히 설명합니다.
AI는 모델에 중점을 두었지만 모델을 생산에 넣는 사람들의 실제 경험은 데이터가 종종 더 중요하다는 것입니다. 이 저장소의 목표는이 경험을 단일 장소에서 통합하는 것입니다.
우리는 처음에 불과하며,이 github에 기여함으로써 도울 수 있습니다! 지금까지 기여한 모든 분들께 감사드립니다.
이 지역에 관심이 있고 더 많은 것을 듣고 싶다면 메일 링리스트에 가입하십시오! 이 짧은 형태를 작성하여 귀하의 관심사가 무엇인지 더 잘 이해할 수 있도록 도와 주시면 감사하겠습니다.
우리는 Stanford에서 데이터 중심 AI에 대한 수업을 만들고 있으며 귀하의 의견을 좋아합니다. 더 많은 것을 배우고 싶다면이 양식을 작성하십시오.
이 저장소를 개선 할 수있는 방법에 대한 아이디어가 있다면 제안과 함께 문제를 제출하십시오.
우리는 독자와 데이터 애호가의 기여 로이 자료가 성장하기를 원합니다. 이 Github 저장소에 기여하고 싶다면 기고 가이드 라인을 읽으십시오.
배경
이 영역은 스터브입니다. 개선하여 도움을 줄 수 있습니다.
머신 러닝을 실제 사용 사례에서 작동시키는 방법을 이해하는 데 많은 흥분이 있습니다. 데이터 중심 AI는 이러한 진행 상황이 어떻게 발생할 수 있는지에 대한 특정 관점을 구현합니다. 실무자가 모델에 시간을 소비하는 대신 실무자가 데이터 세트를 이해, 프로그램 및 반복 할 수 있도록하는 데 집중함으로써.
데이터 프로그래밍 및 약한 감독 영역 페이지
많은 현대 머신 러닝 시스템은 성공하기 위해서는 대규모로 표시된 데이터 세트가 필요하지만 이러한 데이터 세트를 생성하는 데 시간이 많이 걸리고 비싸다. 대신 크라우드 소싱, 먼 감독 및 도메인 전문가의 휴리스틱과 같은 약한 감독 원이 90 년대부터 사용되었습니다.
그러나, 이것들은 AI 및 AI/ML 사람들에 의해 주로 간주되거나 고립 된 기술로 간주되었다. 이를 데이터 중심 관점으로 통합하고 결합하려는 노력은 스노클링, 오픈 소스 프로젝트 및 번성 회사 인 스노클링으로 구현 된 데이터 프로그래밍 일명 프로그래밍 방식 라벨링으로 본격적으로 시작되었습니다. Snorkel의 데이터 중심 AI 접근 방식에서 사용자는 지상 진실 레이블의 시끄러운 추정치를 나타내는 여러 라벨링 기능을 지정합니다. 이러한 라벨링 기능은 데이터 세트의 정확성과 적용 범위가 다양하고 상관 관계가있을 수 있으므로 잠재 변수 그래픽 모델을 통해 결합되고 거부됩니다. 따라서 기술적 인 과제는이 모델에서 정확도와 상관 관계 매개 변수를 배우고 다운 스트림 작업에 사용되는 실제 레이블을 추론하는 것입니다.
데이터 프로그래밍은 잠재 변수 그래픽 모델에서 매개 변수 추정에 대한 긴 작업 라인을 구축합니다. 구체적으로, 라벨링 함수의 공동 분포와 관찰되지 않은 (잠재적) 진정한 레이블의 생성 모델이 학습됩니다. 이 레이블 모델은 다양한 신호 소스의 집계를 허용하면서 다양한 정확성과 잠재적 상관 관계를 가질 수 있습니다.
이 스노클링 블로그 게시물에는 더 많은 라벨이 붙은 데이터를 얻기위한 다른 접근 방식과 비교하는 방법을 포함하여 약한 감독에 대한 개요가 포함되어 있습니다. 이 스탠포드 CS229 강의 노트는 약한 감독에서 그래픽 모델이 어떻게 사용되는지에 대한 이론적 요약을 제공합니다.
데이터 확대 영역 페이지
기계 학습 모델을 훈련시킬 때의 주요 과제는 실제 세계에서 관찰 된 변동성을 충분히 캡처하는 크고 다양한 데이터 세트를 수집하는 것입니다. 데이터 세트 수집 및 라벨링 비용으로 인해 데이터 확대는 저렴하고 유망한 대안으로 등장했습니다.
데이터 증강의 중심 아이디어는 기존 데이터 세트의 예를 변환하여 추가 증강 된 예제를 생성하여 데이터 세트에 추가 할 수있는 것입니다. 이러한 추가 예는 일반적으로 모델에서 보이는 데이터의 다양성을 증가시키고 모델에 대한 추가 감독을 제공합니다. 데이터 확대의 기초는 탄젠트 전파에서 비롯되며, 이는 데이터의 일부 변환과 관련하여 학습 된 모델을 변하지 않는 기술을 도입했습니다.
Alexnet과 같은 증강의 초기 성공은 번역 또는 회전 불변을 장려하는 예를 생성하여 이미지 분류기에서 불변량을 유발하는 데 중점을 두었습니다. 이러한 성공은 이미지, 음성 및 텍스트 분류, 기계 번역 등과 같은 광범위한 작업 세트에 대한 파이프 라인의 일부가되었습니다.
증강에 사용 된 변환의 선택은 모델에서 배운 불변량과 다양한 시험 예제를 만날 때의 행동을 지시하기 때문에 중요한 고려 사항입니다. 휴리스틱 증강은 인기를 유지하고 있지만, 증강 파이프 라인을보다 신중하게 제어하고 프로그래밍 할 수 있어야합니다. Tanda는 선택한 데이터 변환을 구성하여 확대 파이프 라인을 프로그래밍하는 문제에 대한 연구를 시작했습니다. 이 분야는 그 이후로 깊은 이론적 이해와 자가비와 같은 실질적인 구현으로 급속한 성장을 보였습니다. 초기 작업 라인은 조건부 생성 모델을 활용하여 이러한 변환을 지정하는 것보다 학습 하여이 프로그래밍 패러다임을 더 확장했습니다.
자체 감독 영역 페이지
대규모 라벨이 붙은 데이터 세트의 필요성은 표지되지 않은 데이터를 사용하여 입력 공간의 잠재적 표현을 미리 훈련하고 다운 스트림 작업에서 결과 지식이 풍부한 표현을 사용하는 방법을 동기를 부여했습니다. 표현이 다운 스트림 작업으로 지식을 전달할 수 있으므로 이러한 작업에는 레이블이 적은 데이터가 필요합니다. "자기 감독"이라고 불리는이 패러다임은 우리가 모델을 훈련시키는 방법에 혁명을 일으켰습니다. 스탠포드 이니셔티브에 의해 자체 감독 생태계 이해에 관한 스탠포드 이니셔티브에 의해 최근에 "기초 모델"이라고 불리는이 모델들은 손으로 표현 된 데이터에서 이러한 모델에 공급되는 데이터를 이해하는 것으로 초점을 멀리했습니다.
자체 감독 데이터는 종종 대규모 공개 데이터 소스 (예 : Wikipedia)에서 큐 레이션되므로 드문 일의 긴 꼬리가 교육 데이터에 잘 표시되지 않는 인기 편견이 포함될 수 있습니다. Orr et. 알. 일부 인기있는 모델 (예 : Bert)은 맥락 암기에 의존 하고이 긴 꼬리를 해결하기 위해 노력하고 있으며 관련된 다양한 패턴을 암기 할 수있는 희귀 한 시간을 볼 수 없기 때문에이 긴 꼬리를 해결하기 위해 노력합니다. 긴 꼬리 문제는 Amber의 검색 작업과 같이 다운 스트림 작업으로 전파됩니다. AI의 교차점과 데이터 관리 커뮤니티의 수년간의 연구에있는 흥미 진진한 미래 방향 중 하나는 구조화 된 지식을 모델에 통합하는 것입니다. 구조화 된 지식은 지명 된 엔티티 명단을위한 시스템 인 Bootleg의 Tail Success의 핵심 아이디어입니다.
모델염 지역 페이지의 끝
역사적으로 ML 연구원을위한 "캔디 샵의 아이"순간은 Pytorch 또는 Jax와 같은 도구를 사용하여 모델을 구축하고 조정하고 있습니다. 새로운 모델이 매일 출시되었으며 이러한 사용자 정의 모델 아키텍처와 미세하게 조정 된 매개 변수는 최첨단 결과를 꺾고있었습니다. 그러나이 모델염 열풍은 끝나고 있습니다.
최근에 연구원들은 두 가지를 깨달았습니다. (1) 모델 조정보다는 데이터를 깊이 이해함으로써 더 많은 이익을 얻고 있습니다 (데이터 확대의 모든 흥미로운 작업 참조), (2) 사용자 정의 모델은 생산을 유지하고 확장하기가 어렵습니다. 환경. 이로 인해 Ludwig 및 Overton과 같은 모델 구축 플랫폼이 상품화 된 아키텍처를 시행하고 선언적으로 Molino와 Ré 2021을 생성 할 수있는 ML 시스템으로 이동했습니다. 그리고 이러한 Commoditiy 모델이 조정 된 전임자보다 훨씬 우수하다는 것을 보여주었습니다! 이 결과는 Kaplan et al에 의해 추가로 지원되었으며, 이는 아키텍처 문제가 데이터보다 적은 것으로 나타났습니다.
우리가 모델염의 끝을 부르는이 추세는 모델 구성의 데이터 중심 관점으로 나아가고 있습니다. 문제는 "최고의 모델을 구성하는 방법"에서 "모델을 공급하는 방법"으로 전환하는 것입니다.
평가 영역 페이지
모델 평가는 기계 학습에서 모델 개발 프로세스의 중요한 부분입니다. 평가의 목표는 모델의 품질을 이해하고 미래에 잘 수행 될지 예상하는 것입니다.
평가는 기계 학습에서 고전적인 문제이지만, 데이터 중심 AI 접근법은 세분화 된 평가 로 전환을 촉진했습니다. 정확도 및 F1 점수와 같은 평균 성능의 표준 성능 측정을 넘어 특정 관심 집단의 성능을 측정합니다. 이를 통해 모델 성능에 대한보다 세분화 된 이해가 가능하고 사용자에게 모델 기능에 대한 명확한 아이디어를 제공합니다. 이 변화는 세밀한 평가에 대한 접근이보다 강력한 모델을 구축 할 수있는 능력을 향상시키기 때문에 모델 견고성을 이해하는 데 관심이 커지는 데 상보 적입니다.
세분화 된 평가에 대한 접근 방식에는 슬라이스라는 중요한 데이터 서브 세트, 불변 또는 데이터 변환에 대한 민감도, 대적 섭동에 대한 저항에 대한 성능 측정이 포함됩니다. 대부분의 평가는 사용자 지정이지만, 중요한 작업 라인은 모델이 평가에서 모델 빌더가 놓친 숨겨진 지층 에 대한 실적이 저조한 것으로 나타 났으며, 이는 모델을 배포하고 사용하는 능력에 중대한 결과를 초래할 수 있습니다. 이는 미래의 작업이 이러한 숨겨진 지층을 자동으로 발견하거나 일반적으로 데이터 세트와 모델을 체계적으로 분석하여 모델의 가능한 모든 실패 모드를 찾는 데 동기를 부여합니다.
세밀한 평가의 또 다른 중요한 측면은 분포 이동으로 인한 성능 저하를 예측, 측정 및 완화하기위한 데이터 및 모델 모니터링입니다. 여기에는 이상치로 간주 될 수있는 데이터 포인트를 식별하고 분리하고, 배포 된 모델로 스트리밍되는 표지되지 않은 데이터에 대한 성능을 추정하고, 시간이 지남에 따라 데이터 배포가 어떻게 이동하는지에 대한 풍부한 요약을 생성하는 것이 포함됩니다.
견고성 영역 페이지
기계 학습 모델을 성공적으로 배포하기위한 표준 가정 중 하나는 테스트 시간 분포가 교육 중에 발생하고 잘 표현 된 것과 유사하다는 것입니다. 그러나 실제로이 가정은 거의 유지되지 않습니다. 거의 교육 분포와 정확히 일치하는 설정에 모델을 배포 할 것으로 예상되는 경우는 거의 없습니다. 분포 교대에 대한 강력한 훈련 모델은 와일드의 기계 학습을 향상시키는 또 다른 핵심 도전이며, 이는 데이터 중심 패러다임으로 해결 될 수 있다고 주장합니다.
여기서, 우리는 (1) 소집단 이동 또는 숨겨진 계층화, (2) 도메인 이동 및 (3) 부적 교란으로부터의 이동을 해결함에 따라 분포 변화에 대한 견고성을 개선하려는 시도를 광범위하게 분류합니다.
소집단 이동에서 훈련 및 테스트 시간 분포는 각 소집단 또는 "데이터 그룹"이 얼마나 잘 표현되는지가 다릅니다. 훈련 데이터에서 특정 하위 집단이 저조한 경우, 교육 중에 이러한 분포가 발생하더라도 표준 경험적 위험 최소화 (ERM) 및 "통계적 평균 학습"은 과도하게 표현 된 소집단에서만 잘 수행되는 모델을 초래할 수 있습니다.
Group Dro와 George는 실제 인스턴스화 하에서 소집단 이동을 처리하기위한 접근 방식을 도입했습니다. 이러한 방법은 추정 그룹 (LFF, JTT)과 관련된 추가 작업에 영감을주고 대조적 학습을 사용하여 그룹 불리한 표현을 배우기 위해 (CNC- 링크가 곧 제공됨) 영감을 얻었습니다.
소집단 교대 외에도 견고성은 도메인 이동과 대적 섭동을 특징으로합니다. 도메인 시프트에서는 테스트 시간 데이터를 교육 데이터와 완전히 다른 도메인에서 나오는 것으로 모델합니다. 대적 섭동으로 분포 이동 하에서, 시험 시간 데이터는 훈련 된 ERM 모델이 테스트 시간 분포로 강력하게 일반화되는 것을 방지하는 입력 기능 공간의 손상 또는 눈에 띄지 않는 차이를 나타낼 수 있습니다. 이 중요한 섹션은 여전히 스텁입니다. 기부금을 추가하십시오!
데이터 청소 영역 페이지
ML/AI 애플리케이션의 데이터 품질을 향상시키는 또 다른 방법은 데이터 청소를 통한 것입니다. 이 라인을 따라 데이터 청소 및 기계 학습을 공동으로 이해하기위한 다양한 흥미로운 작업이 있습니다.
Mlops 지역 페이지
데이터의 핵심 역할은 ML/AI 애플리케이션의 개발 및 배포를 인간-루프 프로세스로 만듭니다. 이것은 인간의 엔지니어가 실수를 저지르거나지도를 요구하거나 예기치 않은 일이 발생할 때 경고 해야하는 복잡한 과정입니다. MLOPS의 목표는 수명주기 관리, 모니터링 및 검증을위한 원칙적인 방법을 제공하는 것입니다.
연구원들은 TFX, Ease.ML 또는 Overton과 같은 새로운 기술을 개발하고 개발 중 및 생산 중에 머신 러닝 모델의 전체 수명주기를 처리하도록 설계함으로써 이러한 과제를 해결하기 시작했습니다. 이 시스템은 일반적으로 특정 단계 (예 : 예비 또는 사후 훈련) 또는 MLOP의 측면 (예 : 모니터링 또는 디버깅)을 처리하는 뚜렷한 구성 요소로 구성됩니다.
데이터 선택 영역 페이지
대량의 데이터는 딥 러닝의 많은 성공을 가능하게했지만이 빅 데이터는 자체 문제를 가져옵니다. 대규모 데이터 세트로 작업하는 것은 계산 리소스와 라벨링 측면에서 번거롭고 비싸다. 능동 학습 및 코어 세트 선택과 같은 데이터 선택 방법은 라벨 또는 훈련에 가장 귀중한 예를 선택하여 빅 데이터의 통증을 완화 할 수 있습니다.
데이터 선택은 AI/ML의 장기 영역이지만 현대의 산업 데이터 세트의 규모와 왜곡으로 인해 분야는 데이터를보다 정확하게 평가하고 선택 방법의 확장 성을 향상 시켰습니다. (Sener & Savarese 및 Ghorbani et al.)와 같은 최근의 작품은 모델 불확실성에만 의존하기보다는 다양성과 대표성에 중점을 두어 각 교육 예제의 기여를 정량화하는 데보다 데이터 중심적인 접근 방식을 취합니다. 이러한 방법이 규모를 늘리는 데 도움이되면 SVP 및 SEAL과 같은 접근 방식은 최대 3 배까지 계산 비용을 줄이기 위해 간단한 방법을 제시하여 웹 스케일 활성 학습 및 데이터 선택을보다 광범위하게 가능하게합니다.
이러한 라벨 및 계산 효율성의 발전은 데이터 선택을 현대 데이터 세트에 적용 할 수있게하므로 AI/ML은 수량보다는 품질에 중점을 둔 데이터 중심의 관점을 취할 수 있습니다.
데이터 개인 정보 보호 영역 페이지
이 설명은 스터브입니다. 개선하여 도움을 줄 수 있습니다.
데이터 흐름 영역 페이지
이 영역은 스터브입니다. 개선하여 도움을 줄 수 있습니다.
멀티 태스킹 및 다중 도메인 학습 영역 페이지
이 영역은 스터브입니다. 개선하여 도움을 줄 수 있습니다.
신흥 동향 지역 페이지
데이터 중심 AI는 여전히 성장하고 있으며, 우리는 새로운 트렌드가 발생할 때 발생하는 트렌드를 포착하고자합니다. 우리가 형성하고 있다고 생각하는 새로운 영역에는 대화식 기계 학습, 질량 규모 모델 및 관찰 ML이 포함됩니다. 지역 페이지를 살펴보십시오.
응용 프로그램 영역 페이지
데이터 중심의 접근 방식은 학계, 산업 또는 기타 조직에서 머신 러닝이 사용 및 배포되는 곳마다 광범위한 영향을 미쳤습니다. 충격에 걸쳐 구조화 된 데이터, 텍스트, 이미지, 비디오, 그래프 및 기타와 같은 양식은 텍스트 및 이미지 처리, 의료 이미징, 계산 생물학, 자율 주행 등을 포함합니다.