기계 학습 커리큘럼
머신 러닝은 기계를 명시 적으로 프로그래밍하지 않고 관찰 데이터에서 학습하는 데 전념하는 인공 지능의 한 분야입니다.
기계 학습과 AI는 동일하지 않습니다. 머신 러닝은 AI 심포니의 악기 - AI의 구성 요소입니다. 그렇다면 기계 학습 또는 ML은 정확히 무엇입니까? 행동을 생성하기 위해 알고리즘이 이전 데이터에서 배울 수있는 능력입니다. ML은 본 적이없는 상황에서 결정을 내리는 기계를 가르치고 있습니다.
이 커리큘럼은 머신 러닝을 배우고 도구를 추천하며 미디어를 따르도록 제안함으로써 ML 라이프 스타일을 수용하도록 도와줍니다. 신선도를 유지하고 구식 콘텐츠와 더 이상 사용되지 않은 도구를 제거하기 위해 정기적으로 업데이트합니다.
기계 학습 일반적으로
이 섹션을 연구하여 기본 개념을 이해하고 더 깊이 들어가기 전에 직관을 개발하십시오.
컴퓨터 프로그램은 일부 클래스의 작업 T 및 성능 측정 P T 관련하여 E P 배우는 것으로 알려져 있습니다 E
- AI의 요소 AI 및 기계 학습을 가르치는 쉬운 코스
- COMS W4995 Applied Machine Learning Spring 2020 년 컬럼비아 대학교에서 응용 ML 코스의 비디오 및 슬라이드.
- FAST.AI의 의견이 많은 머신 러닝 과정
- Tensorflow API와의 기계 학습 충돌 과정 Google의 빠르게 진행되는 기계 학습 소개
- 기계 학습 소개 - 핵심 ML 개념에 대한 스키 킷 학습 (Python) 프로그래밍 학습에 대한 Udacity 손
- 머신 러닝 : 감독, 감독 및 강화 - Udacity 2 명의 강사는 재밌습니다.
- 머신 러닝 마스터리는 특정 알고리즘에 대한 단계별 가이드를 신중하게 배치했습니다.
- Coursera에 대한 Andrew Ng의 전문화는 후드 아래에서 ML 알고리즘의 세부 사항을 알고 싶어하는 사람들에게 권장되며, 위험한 수학을 이해하고 Python에서 코딩 할당을 수행하십시오.
- ML 레시피 - YouTube 재생 목록 ML 소개를위한 정말 멋지게 설계된 콘크리트 실행 가능한 콘텐츠
- 머신 러닝은 재미있는 부품 1이 아닌 사람들을위한 기계 학습에 대한 단순한 접근
- Python을 사용한 기계 학습 - YouTube 재생 목록
- Andrew Ng의 갈망하는 기계 학습
- 데이터 작업 착륙 :이 과정은 직업 착륙에 집중하려는 사람들을위한 의견과 실용적인 지침입니다. 예를 들어, 의사 결정 트리가 어떻게 작동하는지 아는 것이 이미 충분하다는 것을 제안합니다. 모든 모델이 어떻게 작동하는지 알 필요는 없습니다. 그러나이 조언은 주로 표 데이터를위한 것입니다.
- 서버리스 머신 러닝 자체 기계 학습 서버리스 예측 서비스 구축
- 효과적인 MLOPS : 모델 개발 인증과의 무료 코스 및 편견
- Coursera의 기계 학습 및 데이터 과학 전문화 수학 수학 수학 수학
서적
- Sebastian Raschka의 Pytorch 및 Scikit-Learn을 사용한 기계 학습
- Scikit-Learn, Keras 및 Tensorflow와의 실습 머신 러닝, Aurélien Géron의 2nd edition은 훌륭하기 때문에 가장 좋은 판매 책입니다.
- https://github.com/fastai/fastbook Jupyter Notebooks로 출판 된 Fastai Book
- https://www.deeplearningbook.org/ Math Heavy Book의 Ian Goodfellow 및 Yoshua Bengio 및 Aaron Courville
- https://christophm.github.io/interpretable-ml-book/ 블랙 박스 모델을 설명하기위한 가이드
- https://themlbook.com/ Andriy Burkov의 백 페이지 기계 학습 서적
강화 학습
환경을 감지하고 예상되는 장기 스칼라 보상을 극대화하기 위해 주어진 상태에서 수행 할 최상의 정책 (조치)을 선택하는 기계를 구축하는 것은 강화 학습의 목표입니다.
- Openai Spining Up 이것은 OpenAi가 제작 한 교육 자원으로, 심도 강화 학습 (DEEP RL)에 대해 쉽게 배울 수 있습니다.
- 기본 강화 학습 포괄적 인 단계별 튜토리얼을 사용한 RL (Resonforcement Learning)에 대한 소개 시리즈.
- 고급 주제 : RL 2015 (Compm050/Compgi13)의 David Silver (Alphago 뒤에있는 사람)
- Richard S. Sutton과 Andrew G. Barto의 소개 책
- 깊은 강화 학습 : 픽셀의 Pong
- 강의 10 : 강화 학습 - YouTube
- 설문 조사 논문
- 깊은 강화 학습 : 튜토리얼 - OpenAi
- CS 294 : 깊은 강화 학습, 2017 년 봄
딥 러닝
딥 러닝은 뇌에서 뉴런에서 영감을 얻은 깊은 인공 신경망 (DNN)이 여러 층의 인공 뉴런을 결합하여 원시 데이터의 패턴을 찾는 기계 학습의 한 분야입니다. 레이어가 증가함에 따라 신경망이 점점 더 추상적 인 개념을 배우는 능력도 증가합니다.
가장 간단한 종류의 DNN은 다층 퍼셉트론 (MLP)입니다.

- 딥 러닝의 작은 책이 책은 원래 전화 화면에서 읽을 수 있도록 설계된 스템 배경을 가진 독자들을위한 딥 러닝에 대한 짧은 소개입니다. 비상업적 크리에이티브 커먼즈 라이센스에 따라 배포되며 공개 후 한 달에 250'000 회에 가까운 다운로드되었습니다.
- 전체 스택 딥 러닝 최고의 실무자로부터 생산 수준의 딥 러닝 학습
- Deeplearning.ai Coursera에서 Andrew Ng가 가르치는 많은 과정; Coursera의 기계 학습 과정의 속편입니다.
- udacity에 대한 Facebook AI의 코스 A Pytorch와의 딥 러닝에 소개
- 딥 러닝 및 신경망에 대한 친근한 소개
- 학습 과정을 시각화하는 데 도움이되도록 설계된 간단한 신경망을 가진 신경망 놀이터 땜질
- 딥 러닝 Demystified- YouTube 실제 뉴런에서 인공 신경망에 이르기까지 딥 러닝의 영감을 설명합니다.
- 박사 학위없이 텐서 플로 및 딥 러닝을 배우십시오. 이 3 시간 코스 (Video + Slides)는 개발자에게 깊은 학습 기초에 대한 빠른 소개를 제공하며, 일부 텐서 플로우는 거래에 빠졌습니다.
- yn^2의 딥 러닝 가이드 A 선별 된 수학 가이드 딥 러닝
- Jeremy Howard (Kaggle의 #1 경쟁자 2 년, Enlitic의 창립자)가 가르치는 Fast.ai의 코더 코스에 대한 실용적인 딥 러닝
- 딥 러닝 - 일부 ML을 알고있는 시각적 학습자에게 권장되는 Udacity이 과정은 딥 러닝의 높은 수준의 아이디어를 제공하고, 짙은 직관적 인 세부 사항을 단기간에 제공하면, 코스 내부에서 텐서 플로우를 사용합니다.
- 딥 러닝 여름 학교, 몬트리올 2015
- 신경망 클래스 - YouTube 재생 목록
- http://neuralnetworksanddeeplearning.com/index.html 딥 러닝 수학 직관을위한 실습 온라인 책,이 작업을 마친 후에는 딥 러닝을 세밀하게 설명 할 수 있다고 말할 수 있습니다.
- 신경망 동물원에 대해 알아야 할 신경망 모델이 많이 있습니다 (절반에 대해 알고 있으므로 대부분의 사람들이 인기가 없거나 현재에서 유용하지 않기 때문에 많은 것을 알지 못할 것을 걱정하지 마십시오)
- Udacity에서 가르치는 딥 러닝을위한 소개
- 프라이머 • AI 다음은 신경망을 구축하여 결과를 평가하도록 훈련시키는 전체 과정을 다루는 AI 기초/개념에 대한 기사를 직접 선택한 기사입니다. 매우 상세한 변압기 아키텍처 설명도 있습니다.
- 포옹 얼굴 확산 모델 코스 코스 이론을 배우고, 모델을 처음부터 훈련시키고,이를 사용하여 이미지와 오디오를 생성합니다.
- Sebastian Raschka와 Lightning.ai의 딥 러닝 기초
컨볼 루션 신경 네트워크
사운드 파형, 이미지 및 비디오와 같은 일반적인 DNN보다 더 나은 그리드 데이터로 작동하는 DNN. 그것들은 근처의 입력 장치가 먼 단위보다 더 관련이 있다는 가정을 기반으로합니다. 또한 번역 불변을 사용합니다. 예를 들어, 이미지가 주어지면 이미지의 모든 곳에서 동일한 종류의 가장자리를 감지하는 것이 유용 할 수 있습니다. 때때로 그들은 콩베 또는 CNN 이라고 불립니다.
- Convolutional Neural Networks의 작동 원리 - 풀링 작업, Relu, 완전히 연결된 레이어, 그라디언트 하강을 사용한 최적화를 포함한 YouTube 기술 설명
- 모든 것을 바꾸는 신경망 - 컴퓨터 필
- 컨볼 루션 신경 네트워크 이해를위한 초보자 안내서
- 컴퓨터 비전에 대한 딥 러닝 (Andrej Karparthy, Openai) 이것은 Convolutional Net에서 가장 좋아하는 비디오입니다. Andrej는 Concnet이 가질 수있는 모든 호기심 많은 질문에 대해 자세히 설명합니다. 예를 들어, 대부분의 기사는 그레이 스케일 이미지에서 컨볼 루션에 대해서만 이야기하지만 컬러 채널이있는 이미지의 컨볼 루션을 설명합니다. 그는 또한 Convnets의 우려와 가정에 대해 이야기합니다. 이것은 훌륭한 강의입니다!
- 깊은 시각화를 통해 신경망을 이해하면 다양한 기술을 사용하여 Convnet을 시각화하는 방법을 설명합니다.
재발 성 신경망
국가가있는 DNN. 또한 길이가 다른 시퀀스를 이해합니다. 그들은 때때로 RNN 이라고 불립니다.
- http://karpathy.github.io/2015/05/21/rnn-effectiveness/
- http://colah.github.io/posts/2015-08-understanding-lstms/
- http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-1-introduction-to-rnns/
모범 사례
- 머신 러닝 규칙 : ML 엔지니어링을위한 모범 사례 Martin Zinkevich의 기계 학습에 대한 Google 모범 사례에 대한 문서입니다.
- 신경 네트워크를 훈련하기위한 레시피 Andrej의 블로그 포스트는 편집증 기계 학습 엔지니어가되도록 훈련하는 방법에 대한 블로그 포스트입니다.
- 신경망을 디버깅하는 방법. 수동.
- 그라디언트 하강 최적화 알고리즘의 개요
- 딥 러닝 튜닝 플레이 북 딥 러닝 모델의 성능을 체계적으로 최대화하기위한 플레이 북.
도구
실용적인 기계 학습에 유용한 라이브러리 및 프레임 워크
프레임 워크
머신 러닝 빌딩 블록
- Scikit-Learn General Machine Learning Library, 높은 수준의 추상화, 초보자를 대상으로합니다.
- 텐서 플로; 멋진 텐서 플로; Google에서 구축 한 계산 그래프 프레임 워크, 멋진 시각화 보드가 있습니다. 아마도 오늘날 딥 러닝을위한 가장 인기있는 프레임 워크 일 것입니다.
- KERAS : 인간을위한 딥 러닝 Keras는 파이썬으로 작성된 딥 러닝 API로 텐서 플로 위에 달려 있습니다. 여전히 딥 러닝에 대한 높은 수준의 추상화의 왕입니다. 업데이트 : Keras는 이제 Tensorflow, Jax 및 Pytorch에서 사용할 수 있습니다!
- 강력한 GPU 가속을 가진 파이썬의 Pytorch 텐서 및 동적 신경망. OpenAI를 포함한 최첨단 연구원이 일반적으로 사용합니다.
- 딥 러닝 프레임 워크를 번개에 대고 AI 제품을 빠르게 훈련, 배치 및 배송합니다. (Pytorch Lightning이라고 불렀습니다)
- Jax는 Autograd 및 XLA이며 고성능 머신 러닝 연구를 위해 모였습니다.
- OneFlow는 사용자 친화적이고 확장 가능하며 효율적으로 설계된 딥 러닝 프레임 워크입니다.
- 딥 러닝을위한 Apache MXnet (인큐베이션) Apache MXNet은 효율성과 유연성을 위해 설계된 딥 러닝 프레임 워크입니다. 이를 통해 기호 및 명령형 프로그래밍을 혼합하여 효율성과 생산성을 극대화 할 수 있습니다.
- 딥 러닝을위한 신경망의 유연한 프레임 워크 체인
- Vowpal Wabbit은 온라인, 해싱, Allreduce, Reledtions, Learning2Search, Active 및 Interactive Learning과 같은 기술로 기계 학습의 프론티어를 밀어 넣는 기계 학습 시스템입니다. 몇 가지 상황에 맞는 산적 알고리즘이 구현되고 온라인 특성이 문제에 대한 대출로 강화 학습에만 초점을 맞추고 있습니다.
- H2O는 분산되고 확장 가능한 기계 학습을위한 메모리 내 플랫폼입니다.
- Keras 및 Tensorflow가있는 Spektral 그래프 신경망 2.
- 아이비는 ML 트랜스 필러 및 프레임 워크로 현재 JAX, Tensorflow, Pytorch 및 Numpy를 지원합니다. 아이비는 모든 ML 프레임 워크를 통합합니까? 이러한 프레임 워크와 함께 사용될 수있는 코드를 백엔드로 작성할 수있을뿐만 아니라, 그 중 어느 것도 선호하는 프레임 워크로 작성된 기능, 모델 또는 라이브러리를 변환 할 수 있습니다!
코딩 없음
- Ludwig Ludwig는 사용자가 코드를 작성할 필요없이 딥 러닝 모델을 교육하고 테스트 할 수있는 도구 상자입니다. 텐서 플로 위에 제작되었습니다.
그라디언트 부스팅
뛰어난 일반화 성과로 인해 경쟁에서 많이 사용되는 모델.
- https://github.com/dmlc/xgboost Extreme Gradient Boosting
- xgboost와 비교하여 https://github.com/microsoft/lightgbm 경량 대안
- https://github.com/catboost/catboost 의사 결정 트리 라이브러리에서 빠르고 확장 가능하며 고성능 구배 향상, Python, R, Java, C ++의 순위, 분류, 회귀 및 기타 기계 학습 작업에 사용됩니다. CPU 및 GPU의 계산을 지원합니다.
- https://github.com/tensorflow/decision-forests Tensorflow Decision Forests (TF-DF)는 의사 결정 산림 모델의 교육, 서비스 및 해석을위한 최첨단 알고리즘 모음입니다.
- Pytorch/Tensorflow Tabnet 논문의 구현. 또한 Tabnet은 Tabular Data의 설명 성 및 모델 성능을 균형을 유지하지만 트리 모델을 강화할 수 있습니까?
시계열 추론
시계열 데이터는 대부분의 기계 학습 모델에서 고유 한 기능 추출 프로세스가 필요합니다. 대부분의 모델은 데이터 형식이어야하기 때문입니다. 또는 시계열, 예를 들어 LSTM, TCN 등을 대상으로하는 특수 모델 아키텍처를 사용할 수 있습니다.
- https://github.com/timeseriesai/tsai 시계열 시계열 Timesseries 딥 러닝 Pytorch Fastai- 시계열 및 Pytorch/Fastai의 시퀀스가있는 최첨단 딥 러닝. 추가로 읽기 : TSAI - 시계열을위한 최첨단 기계 학습, 1 부.
- https://github.com/alan-turing-institute/sktime 시계열이있는 기계 학습을위한 통합 프레임 워크
- https://github.com/sktime/sktime-dl sktime을위한 텐서 플로우/keras와의 딥 러닝을위한 확장 패키지
- https://github.com/tsuren-team/tsiren/ 시계열 데이터 전용 기계 학습 툴킷
- https://github.com/blue-yonder/tsfresh 시계열에서 관련 기능의 자동 추출
- https://github.com/johannfaouzi/pyts 시계열 분류를위한 파이썬 패키지
- https://github.com/facebook/prophet 도구 선형 또는 비선형 성장으로 여러 계절성을 가진 시계열 데이터에 대한 고품질 예측을 생성합니다.
- https://github.com/philipperemy/keras-tcn keras 시간 컨볼 루션 네트워크
- 로켓 : 랜덤 컨볼 루션 커널을 사용한 매우 빠르고 정확한 시계열 분류; Minirocket : 시계열 분류에 대한 매우 빠른 결정 론적 변환; 이 두 가지 기술은 시계열 기능을 추출하기위한 것입니다. 추가로 읽기 : 로켓 : 빠르고 정확한 시계열 분류
수명주기
생산 모델 (MLOPS)을 개발/디버그/배포하는 데 도움이되는 라이브러리. 모델을 훈련하는 것보다 ML에 더 많은 것이 있습니다.
- https://huggingface.co/ github와 마찬가지로 ML 모델, 데이터 세트 및 앱을 저장하는 경우 (앱을 공백으로 호출). 코드에서 모델/데이터 세트를 쉽게 사용할 수있는 라이브러리가 있습니다. 스토리지는 무료이며 공공 및 민간 프로젝트 모두에 무제한입니다.
- https://wandb.ai/ 실험 추적, 데이터 세트 버전 작성 및 모델 관리를 통해 더 나은 모델 구축
- https://github.com/flyteorg/flyte flyte를 사용하면 기계 학습 및 데이터 처리를위한 동시, 확장 가능하며 유지 관리 가능한 워크 플로를 쉽게 만들 수 있습니다.
- https://github.com/allegroai/clearml 자동 마법 도구 스위트 ML 워크 플로를 간소화합니다. ML-OPS 및 데이터 관리 실험 관리자
- https://github.com/quantumblacklabs/kedro 재현 가능, 유지 관리 및 모듈 식 데이터 과학 코드를 작성하기위한 파이썬 프레임 워크.
- https://github.com/determined-ai/determined degined는 구축 모델을 빠르고 쉽게 만들 수있는 오픈 소스 딥 러닝 교육 플랫폼입니다. 나는 주로 하이퍼 파라 미터를 조정하는 데 사용합니다.
- https://github.com/iterative/cml CML (Continuous Machine Learning)은 기계 학습 프로젝트에서 CI/CD (Continuous Integration & Delivery)를 구현하기위한 오픈 소스 라이브러리입니다. 모델 교육 및 평가, 프로젝트 기록의 ML 실험 비교 및 변경 데이터 세트 모니터링을 포함하여 개발 워크 플로의 일부를 자동화하는 데 사용하십시오.
- 온라인 기계 학습을 위한 https://github.com/creme-ml/creme Python 라이브러리. 라이브러리의 모든 도구는 한 번에 단일 관찰로 업데이트 될 수 있으므로 스트리밍 데이터에서 학습하는 데 사용할 수 있습니다.
- https://github.com/aimhubio/aim 1000의 ML 교육 실행을 녹음, 검색 및 비교하는 매우 중요한 방법입니다.
- https://github.com/netflix/metaflow metaflow는 과학자와 엔지니어가 실제 데이터 과학 프로젝트를 구축하고 관리하는 데 도움이되는 인간 친화적 인 Python 라이브러리입니다. 메타 플로는 원래 Netflix에서 개발되었습니다.
- MLFLOW MLFLOW (현재 베타 버전)는 실험, 재현성 및 배포를 포함하여 ML 라이프 사이클을 관리하는 오픈 소스 플랫폼입니다. 현재 MLFLOW 추적, MLFLOW 프로젝트, MLFLOW 모델의 세 가지 구성 요소를 제공합니다.
- Floydhub a Heroku를위한 딥 러닝 (모델에 중점을두면 배포됩니다)
- Comet.ml Comet을 통해 데이터 과학자와 팀은 모델의 전체 라이프 사이클에서 실험 및 모델을 추적, 비교, 설명 및 최적화 할 수 있습니다. 훈련에서 생산에 이르기까지
- https://neptune.ai/ 모든 모델 빌딩 메타 데이터 관리 단일 장소에서 관리
- https://github.com/fastai/nbdev jupyter 노트북을 사용하여 유쾌한 파이썬 프로젝트를 만듭니다
- https://rapids.ai/ GPU의 데이터 과학
- https://github.com/datarevenue-berlin/openmlops
- https://github.com/jacopotagliabue/you-dont-need-a-bigger-boat 실제로 도구가 아니라 실제 합리적인 규모의 비즈니스에서 많은 도구를 함께 구성하는 방법에 대한 안내서.
- https://www.modular.com/ AI 인프라를 처음부터 재 설계하려는 야심 찬 목표를 가진 회사. 그들은 파이썬의 슈퍼 세트 인 Mojo라는 새로운 언어를 소개합니다.
GPU 클라우드
이것은 의견이 많은 목록이라는 것을 기억하십시오. 클라우드 제공 업체가 많이 있습니다. 나는 그들 모두를 나열하지 않을 것입니다. 나는 단지 내가 익숙한 사람들을 나열 할 것이고 나는 좋다고 생각합니다.
- https://lightning.ai/ Lightning Studio를 사용하면 기계 학습 모델을 개발하기위한 고급 노트북을 버릴 수 있습니다. VSCODE를 사용하여 클라우드에 코드를 작성하고 교육 또는 추론에 GPU를 사용하십시오. Lightning Studio는 Github Codespace와 유사하지만 GPU와 유사합니다.
- https://modal.com/ modal을 사용하면 자체 인프라없이 작업, 작업 대기열, 웹 앱 등을 대규모로 병렬화하는 기계 학습 모델을 실행하거나 배포 할 수 있습니다.
- https://www.runpod.io/ gpus에서 80% 이상을 절약하십시오. Pytorch, Tensorflow 또는 기타 AI 프레임 워크 용 Jupyter로 쉽게 GPU 임대했습니다. 나는 전에 그것을 사용했습니다. 사용하기 쉽습니다.
- https://replicate.com/ 실행 및 미세 튜닝 오픈 소스 모델. COG를 사용하여 규모로 사용자 정의 모델을 배포하십시오. 모두 한 줄의 코드가 있습니다.
- https://bentoml.com/ Bentoml은 소프트웨어 엔지니어가 AI 제품을 구축 할 수있는 플랫폼입니다. Bentoml 패키지를 사용하여 배포하십시오.
- https://www.baseten.co/ 트러스를 사용하여 클라우드에서 빠르고 확장 가능한 모델 추론
- https://lambdalabs.com/ gpu 클라우드 딥 러닝을 위해 구축되었습니다. 시장에서 클라우드 GPU에 대한 최고의 가격에 즉시 액세스 할 수 있습니다. 약속이나 협상이 필요하지 않습니다. 73% 이상 대 AWS, Azure 및 GCP를 절약하십시오. Pytorch, Tensorflow, Jupyter로 딥 러닝을 위해 구성되었습니다
- https://www.beam.cloud/ On-Demand GPU Compute : 인프라를 관리하지 않고 서버리스 GPU에 AI 및 LLM 응용 프로그램을 기차 및 배포합니다.
데이터 저장
- https://github.com/huggingface/datasets/로드, 사전 처리 및 공유 데이터 세트를위한 패키지.
- https://github.com/activeloopai/deeplake 딥 러닝을위한 데이터 레이크. 데이터 세트를 빌드, 관리, 쿼리, 버전 및 시각화합니다. Pytorch/Tensorflow에 실시간으로 데이터를 스트리밍하십시오.
- https://github.com/determined-ai/yogadl 딥 러닝을위한 데이터로드에 대한 더 나은 접근 방식. 디스크, GCS 또는 S3에 대한 APITRANSPARENT 캐싱.
- https://github.com/google/ml_collections ML 컬렉션은 ML 사용 사례를 위해 설계된 Python 컬렉션 라이브러리입니다. 여기에는 중첩 요소에 대한 도트 액세스가있는 "Dick-Like"데이터 구조 인 Configdict가 포함되어 있습니다. 실험 및 모델의 구성을 표현하는 주요 방법으로 사용되어야합니다.
데이터가 rangling
데이터 청소 및 데이터 확대
- 데이터 세트의 https://github.com/cgnorthcutt/cleanlab 클린 라벨링 오류
- https://github.com/aleju/imgaug 이미지 증강 라이브러리 키패 인트 변환을 히트 맵으로 지원합니다.
- https://github.com/albu/albumentations 가장 빠른 이미지 증강 라이브러리
- https://github.com/mdbloice/augmentor 분류 작업에 대한 사용하기 쉬운 이미지 확대 (키패 인트를 확대 할 수 없음)
- https://github.com/facebookresearch/augly 오디오, 이미지, 텍스트 및 비디오를위한 데이터 증강 라이브러리.
데이터 오케스트레이션
- https://github.com/prefecthq/prefect
- https://github.com/dagster-io/dagster
- https://github.com/ploomber/ploomber ploomber는 데이터 파이프 라인을 구축하는 가장 빠른 방법 ⚡️입니다. 좋아하는 편집기 (Jupyter, Vscode, Pycharm)를 사용하여 대화식으로 개발하고 코드 변경 (Kubernetes, Airflow, AWS Batch 및 Slurm)없이 ☁️을 배포하십시오.
- https://github.com/orchest/orchest 데이터 파이프 라인 빌드, 사용자-친환경 UI를 사용하는 쉬운 방법
데이터 시각화
- https://github.com/gradio-app/gradio 3 분 안에 Python에서 기계 학습 모델에 대한 UI를 만듭니다. UI는 비 기술적 인 사람들과도 공유 할 수있는 웹 앱입니다. 내가 좋아하는 기능 중 하나는 예제 구성 요소입니다. 이 앱이 머신 러닝 사용 사례를위한 것임을 잘 보여줍니다.
- https://github.com/streamlit/streamlit sleamlit 데이터 스크립트를 몇 분 안에 공유 가능한 웹 앱으로 바꿉니다. 모두 파이썬으로. 모두 무료로. 프론트 엔드 경험이 필요하지 않습니다.
- https://github.com/oeedijk/explainerdashboard 소위 "Blackbox"머신 러닝 모델의 내부 작업을 보여주는 설명 가능한 AI 대시 보드를 신속하게 구축하십시오.
- https://github.com/lux-org/lux Jupyter 노트북에서 데이터 프레임을 간단히 인쇄하여 Lux는 데이터 세트의 흥미로운 트렌드와 패턴을 강조하는 일련의 시각화를 권장합니다.
- https://github.com/slundberg/shap shap (Shapley addititive explanations)는 기계 학습 모델의 출력을 설명하는 게임 이론 접근법입니다.
- https://github.com/comet-ml/kangas kangas는 대규모 멀티미디어 데이터를 탐색, 분석 및 시각화하는 도구입니다. 데이터 세트에 대한 복잡한 쿼리를 수행하기위한 직관적 인 시각적 인터페이스와 함께 대형 데이터 테이블을 기록하기위한 간단한 Python API를 제공합니다.
하이퍼 파라미터 튜닝
시작하기 전에 일반적으로 검색 동기를 이해하려면이 블로그 게시물을 읽으십시오 : https://www.determined.ai/blog/stop-doing-istrative-model-development
검색 중심 개발에 눈을 뜨십시오. 그것은 당신을 바꿀 것입니다. 주요 이점은 좌절이 없다는 것입니다. 진전과 개선 만 허용됩니다. 새로운 솔루션이 작동하지 않기 때문에 거꾸로 회귀하는 대신 매일 일하고 발전한다고 상상해보십시오. 이 보장 된 진보는 검색 중심 개발이 당신에게 할 일입니다. 기계 학습뿐만 아니라 최적화의 모든 것에 적용하십시오.
내 최고의 의견이 많은 선호도는 병렬화 (많은 기계의 분산 튜닝), 유연성 (임의의 목표를 최적화하고 데이터 세트 매개 변수를 조정할 수 있음), SOTA 튜닝 알고리즘 (예 : 하이퍼 밴드, BOHB, TPE, PBT, ASHA 등), 결과/분석 도구 및 넓은 문서/TITORTONS의 유연성 (임의의 목표를 최적화하고 데이터 세트 매개 변수를 조정할 수 있음)으로 인해 결정됩니다.
- https://github.com/determined-ai/determined degined는 구축 모델을 빠르고 쉽게 만들 수있는 오픈 소스 딥 러닝 교육 플랫폼입니다. IMO, 딥 러닝 모델의 과다 파라미터를 저렴하게 튜닝하는 데 가장 적합합니다. 그들은 일류 시민으로서 AWS와 대부분의 클라우드 서비스를 지원합니다. 그들은 또한 선제 적 인스턴스를 지원하는데, 이는 다시 저렴합니다. 교육을 마치면 모든 GPU 인스턴스가 자동으로 종료됩니다. 대규모 훈련으로 돈을 저축하려면 결정을 내리십시오.
- https://docs.ray.io/en/mas 분산 튜닝을 찾고 있다면 Ray Tune은 아마도 가장 심각한 프레임 워크 일 것입니다.
- https://github.com/optuna/optuna 자동 하이퍼 파라미터 최적화 소프트웨어 프레임 워크 (프레임 워크 Agnostic, Define-s Define-by-Run).
- https://github.com/pyhopper/pyhopper pyhopper는 기계 학습 연구 및 비즈니스에서 발생하는 고차원 문제를 위해 특별히 제작 된 하이퍼 파라미터 최적화기입니다. 이 사람은 Optuna보다 10 배 빠르다고 주장했습니다. 이 주장이 사실입니까? 우리는 시도 할 때까지 알 수 없습니다!
- https://github.com/keras-team/keras-tuner Keras에 대한 사용하기 쉬운 분포 가능한 하이퍼 파라미터 최적화; 여기에서 기사를 읽으십시오
- https://github.com/autonomio/talos keras, tensorflow (tf.keras) 및 Pytorch에 대한 최적화 최적화
- https://github.com/maxpumperla/hyperas keras + hyperopt : 편리한 하이퍼 파라미터 최적화를위한 매우 간단한 래퍼
- https://github.com/fmfn/bayesianoptimization 가우스 프로세스를 사용한 글로벌 최적화의 파이썬 구현.
- https://github.com/hyperopt/hyperopt
- 파이썬에서 https://github.com/msu-coinlab/pymoo 다중 관점 최적화
- https://github.com/google/vizier 오픈 소스 Vizier : 신뢰할 수 있고 유연한 블랙 박스 최적화. Oss Vizier는 규모로 작동하도록 설계된 최초의 하이퍼 파라미터 튜닝 서비스 중 하나 인 Google Vizier를 기반으로하는 블랙 박스 최적화 및 연구를위한 파이썬 기반 서비스입니다.
자동
기능 엔지니어링, 모델 선택 및 하이퍼 파라미터 튜닝의 지루한 작업없이 기계를 배우게합니다. 기계가 기계 학습을 수행하도록하십시오!
개인적으로 표 형 데이터 세트가 있으면 Flaml과 Mljar를 먼저 시도해 볼 것입니다. XGBOOST, LightGBM, Catboost 등과 같은 그라디언트 부스팅 프레임 워크를 시도해 보려면 어느 것이 가장 잘 작동하는지 알지 못하면 Automl을 먼저 시도하는 것이 좋습니다.
- 2021 년 최고의 OpenSource automl 프레임 워크 곡선의 오르 센서스 automl 프레임 워크 목록을 포함하는 매체에 관한 기사.
- https://github.com/dabl/dabl 데이터 분석 기준 라이브러리; 성능 기준으로 사용할 간단한 모델을 신속하게 훈련
- https://www.automl.org/ 큐 레이트 된 Automl 라이브러리 및 연구 목록을 찾으십시오
- https://github.com/jhfjhfj1/autokeras (2018 년 8 월 24 일),이 라이브러리는 분류 만 할 수 있기 때문에 매우 조급합니다.
- https://github.com/automl/auto-sklearn/는 Windows에서 실행되지 않으므로 사용하려면 WSL (Linux 용 Windows Subsystem)을 설치해야합니다.
- https://github.com/epistasislab/tpot 수천 개의 머신 러닝 파이프 라인을 실행하고 코드를 출력하십시오.
- https://github.com/climbsrocks/auto_ml 저자가 TPOT와 Auto-Sklearn의 비교에 대해 어떻게 생각하는지 읽으십시오.
- https://github.com/microsoft/flaml 비용 효율적인 경제적 최적화 알고리즘을 갖춘 빠르고 가벼운 automl.
- https://github.com/mljar/mljar-supervised Tabular Data와 함께 작동하는 자동 기계 학습 파이썬 패키지. 나는 그것이 Golden Feactions 및 K-Means 기능을위한 시각화 보고서 (설명 모드)와 추가 기능을 생성하는 것을 좋아합니다.
- 텍스트, 이미지 및 테이블 데이터에 대한 https://github.com/awslabs/autogluon automl. 그러나 그것은 Windows를 지원하지 않습니다 (2021 년 10 월 11 일 현재).
- https://github.com/autoviml/auto_viml auto_viml은 필요한 가장 적은 변수를 가진 고성능 해석 가능한 모델을 구축하도록 설계되었습니다.
모델 아키텍처
해당 분야에서 최첨단 아키텍처.
- https://github.com/rwightman/pytorch-image-models Pytorch 이미지 모델, 스크립트, 사전 처리 중량-Resnet, Resnext, Experientnet, Engicialnetv2, NFNET, Vision Transformer, Mixnet, MobileNet-V3/V2, Regnet, DPN, Cspnet 등. 일반적으로
timm 이라고합니다. - https://modelzoo.co/ 모델 동물원
- https://github.com/tensorflow/models
- 마젠타 : 기계 인텔리전스가있는 음악과 예술 세대
- https://github.com/phillipi/pix2pix image-to-image 번역 조건부 대적 네트를 사용하여; pix2pix의 텐서 플로 포트; 이 작품의 프레젠테이션을보십시오 : 교사없이 보는 법을 배우십시오.
- Wav2letter Facebook AI Research의 자동 음성 인식 툴킷
- https://github.com/huggingface/transformers Tensorflow 2.0 및 Pytorch를위한 최첨단 자연 언어 처리
- https://github.com/huggingface/diffusers? 디퓨저 : Pytorch의 이미지 및 오디오 생성을위한 최첨단 확산 모델
- https://bigscience.huggingface.co/blog/bloom BigScience LLM에서 큰 언어 모델을 열어줍니다. 기사
- https://github.com/hpcaitech/colossalai 기사
- https://stability.ai/blog/stable-diffusion-public-release 안정 확산은 간단한 텍스트 설명에서 고품질 이미지를 생성 할 수있는 모델입니다. 왜 그렇게 잘 작동하는지 설명하는 짧은 트위터 스레드가 있습니다. 다음은 확산 모델에 대해 더 많이 배울 수있는 리소스가 포함 된 스레드입니다.
프롬프트 엔지니어링
GPT-3과 같은 대형 언어 모델 (LLMS)은 강력하지만 원하는 출력을 생성하려면 프롬프트가 필요합니다. 프롬프트 엔지니어링은 원하는 출력을 생성하는 데 사용할 수있는 프롬프트를 설계하는 프로세스입니다.
- https://github.com/hwchase17/langchain Composability를 통해 LLMS로 응용 프로그램을 구축하기위한 파이썬 패키지입니다.
- https://dust.tt/ 대형 언어 모델 앱을 설계하고 배포하기위한 웹 기반 도구.
- https://github.com/jerryjliu/gpt_index gpt index는 LLM을 사용하여 생성되고 쿼리에 응답하기 위해 LLM을 사용하여 통과 할 수있는 일련의 데이터 구조로 구성된 프로젝트입니다.
- https://github.com/xpitfire/symbolicai/ 구성 차별화 가능한 프로그래밍 라이브러리 : 상징적 인 API를 통해 핵심 LLM을 사용하여 LLM을 사용하는 응용 프로그램 구축은 Python에서 고전적이고 차별화 가능한 프로그래밍의 힘을 활용합니다.
좋은 블로그와 블로그를 따라야합니다
- https://www.pyimagesearch.com/ opencv 및 딥 러닝에 대한 블로그를 자주 업데이트했습니다
- http://colah.github.io/ 아름다운 시각화에 대한 멋진 설명
- https://karpathy.github.io/ 그는 깊은 그물에 대한 코스를 가르쳐서 AI 감독으로 Tesla에서 일하는 데 사용되었습니다.
- http://ruder.io Sebastian Ruder의 딥 러닝 및 NLP 블로그
- http://www.wildml.com/
- https://machinelearningmastery.com/에는 많은 콘텐츠와 아름다운 웹 사이트가 포함되어 있습니다
- sirajology의 YouTube 재생 목록 ML에 대한 조밀 한 짧은 재미있는 소개
- 딥 러닝 재생 목록에 대한 2 분의 논문
- Distill.pub 머신 러닝 연구를위한 현대적인 매체
- deeplearn.org 딥 러닝 모니터; 딥 러닝 논문 및 트윗에 대한 뉴스
- Mlops에 대한 Datarevenue 블로그
- https://www.youtube.com/c/andrejkarpathy Andrej Karparthy는 Tesla Autopilot 팀을 떠난 후 새로운 YouTube 채널을 만들어 사람들에게 "철자"스타일로 신경망을 구현하는 방법을 가르쳤습니다.
- https://e2eml.school/blog.html End-to-End Machine Learning 블로그는 많은 주제를 자세히 설명합니다.
- https://jalammar.github.io/ 한 번에 하나의 개념을 기계 학습 시각화. 그의 블로그에는 변압기 또는 안정적인 확산과 같은 ML 개념에 대한 설명이 포함되어 있습니다.
- Radek Osmulski 블로그 그는 DL 기술과 전략에 대한 블로그를 활용하여 더 빠르게 배울 수 있습니다.
영향력있는 사람들
- 제프리 힌튼 (Geoffrey Hinton)은 학생들과 함께 2 개의 혁신 기술 (Relu and Dropout)을 소개함으로써 딥 러닝의 대부라고 불렀습니다. 이러한 기술은 심층 신경망의 사라지는 구배 및 일반화 문제를 해결합니다.
- Yann Lecun은 오늘날 컴퓨터 비전 개발자들 사이에서 인기있는 네트워크 인 CNNS (Convolutional Neural Networks)를 발명했습니다. 현재 메타에서 일하고 있습니다.
- Yoshua Bengio another serious professor at Deep Learning, you can watch his TEDx talk here (2017)
- Andrew Ng he discovered that GPUs make deep learning faster. He taught 2 famous online courses, Machine Learning and Deep Learning specialization at Coursera. particular type of RNN)
- Jeff Dean, a Google Brain engineer, watch his TEDx Talk
- Ian Goodfellow, he invented GANs (Generative Adversarial Networks), is an OpenAI engineer
- David Silver this is the guy behind AlphaGo and Artari reinforcement learning game agents at DeepMind
- Demis Hassabis CEO of DeepMind, has given a lot of talks about AlphaGo and Reinforcement Learning achievements they have
- Andrej Karparthy he teaches convnet classes, wrote ConvNetJS, and produces a lot of content for DL community, he also writes a blog (see Nice Blogs & Vlogs to Follow section)
- Pedro Domingos he wrote the book The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World , watch his TEDx talk here
- Emad Mostaque he is the founder of stability.ai, a company that releases many open source AI models including Stable Diffusion
- Sam Altman he is the president of OpenAI, a company that releases ChatGPT
Cutting-Edge Research Publishers
Steal the most recent techniques introduced by smart computer scientists (could be you).
- http://www.arxiv-sanity.com/ Arxiv Sanity Preserver
- https://research.facebook.com/ai/
- http://research.google.com/pubs/MachineIntelligence.html
- https://deepmind.com/research/ Research of DeepMind company
- https://www.openai.com/
- https://www.openai.com/requests-for-research/
- State of the art performance on each ML task
- State-of-the-art result for all Machine Learning Problems
- https://stability.ai/ is releasing a lot of open source high-quality models.
- https://twitter.com/ai__pub AI papers and AI research explained, for technical people.
- https://twitter.com/_akhaliq is a Twitter account that tweets the latest research papers in the field of AI.
Practitioner Community
- https://www.kaggle.com
- https://gym.openai.com
- https://universe.openai.com/
- /r/MachineLearning
- https://www.facebook.com/groups/DeepNetGroup/
Thoughtful Insights for Future Research
- Why AI is Harder Than We Think
- The Consciousness Prior by Yoshua Bengio
- What Can't Deep Learning Do? a list of problems that deep learning faces
- Pedro Domingos: "The Master Algorithm" - Talks at Google
- The AI Revolution: The Road to Superintelligence
- https://ai100.stanford.edu/2016-report
- Why does Deep Learning work so well? - The Extraordinary Link Between Deep Neural Networks and the Nature of the Universe
- These are three of the biggest problems facing today's AI
- Four Questions For: Geoff Hinton Geoff Hinton is referred to as "godfather of neural networks"
- What product breakthroughs will recent advances in deep learning enable? - Quora
- Liquid Neural Networks
분류되지 않은
- Artificial Intelligence: A Modern Approach (Online Book)
- The Principles of Modern Game AI
- Scipy Lecture Notes
- https://www.youtube.com/user/aicourses
- The Fundamentals of Neuroscience learn how our brain works so that you can discover new deep learning breakthrough
- Bayesian Methods for Hackers An introduction to Bayesian methods + probabilistic programming with a computation/understanding-first, mathematics-second point of view. All in pure Python ;)
Other Big Lists
- https://github.com/ahmedbahaaeldin/From-0-to-Research-Scientist-resources-guide This guide is designated to anybody with basic programming knowledge or a computer science background interested in becoming a Research Scientist with on Deep Learning and NLP.
- https://www.mrdbourke.com/ml-resources/ Machine Learning Courses & Resources recommendation by Daniel Bourke
- List of MLOps Courses and Books by Damien Benveniste on Facebook
- https://github.com/collections/machine-learning
- https://github.com/topics/machine-learning
- https://github.com/topics/mlops
- https://github.com/GokuMohandas/MadeWithML Join 30K+ developers in learning how to responsibly deliver value with ML.
- https://papers.labml.ai/papers/daily
- https://github.com/alirezadir/Production-Level-Deep-Learning
- https://github.com/jindongwang/transferlearning
- https://github.com/kmario23/deep-learning-drizzle
- https://github.com/ZuzooVn/machine-learning-for-software-engineers
- https://github.com/josephmisiti/awesome-machine-learning
- https://github.com/ujjwalkarn/Machine-Learning-Tutorials
- https://github.com/terryum/awesome-deep-learning-papers
- https://github.com/ChristosChristofidis/awesome-deep-learning
- https://github.com/Developer-Y/cs-video-courses#machine-learning
- Deep Learning Resources by Jeremy D. Jackson
- https://github.com/songrotek/Deep-Learning-Papers-Reading-Roadmap
- https://github.com/aikorea/awesome-rl Awesome Reinforcement Learning
- https://github.com/artix41/awesome-transfer-learning Awesome Transfer Learning
- https://github.com/heejkoo/Awesome-Diffusion-Models Awesome Diffusion Models
- https://github.com/Renumics/awesome-open-data-centric-ai Data-centric AI is the practice of systematically engineering the data used to build AI systems.
- https://github.com/labmlai/annotated_deep_learning_paper_implementations
- https://github.com/ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code
I am confused, too many links, where do I start?
If you are a beginner and want to get started with my suggestions, please read this issue: #4
부인 성명
From now on, this list is going to be compact and opinionated towards my own real-world ML journey and I will put only content that I think are truly beneficial for me and most people. All the materials and tools that are not good enough (in any aspect) will be gradually removed to combat information overload, including:
- too difficult materials without much intuition; impractical content
- too much theory without real-world practice
- low-quality and unstructured materials
- courses that I don't consider to enroll myself
- knowledge or tools that are too niche and not many people can use it in their works eg deepdream or unsupervised domain adaptation (because you can Google it if you want to use it in your work).
- tools that are beaten by other tools; not being state-of-the-art anymore
- commercial tools that look like it can die any time soon
- projects that are outdated or not maintained anymore
NOTE : There is no particular rank for each link. The order in which they appear does not convey any meaning and should not be treated differently.
How to contribute to this list
- Fork this repository, then apply your change.
- Make a pull request and tag me if you want.
- 그게 다야. If your edition is useful, I'll merge it.
Or you can just submit a new issue containing the resource you want me to include if you don't have time to send a pull request.
The resource you want to include should be free to study.