
이 pandect (πανδέκτης는 백과 사전의 고대 그리스어입니다)는 온라인에서 이용할 수있는 자연 언어 처리와 관련된 거의 모든 것을 찾을 수 있도록 만들어졌습니다.
사용 가능한 리소스 유형에 대한 빠른 범례에 유의하십시오 .
- 오픈 소스 프로젝트, 일반적으로 별 수를 가진 github 저장소
? - 읽을 수있는 리소스, 일반적으로 블로그 게시물 또는 종이
- 추가 리소스 모음
? - 오픈 소스 도구, 프레임 워크 또는 유료 서비스
? ️- 당신이 볼 수있는 자원
? 닐 - 당신이들을 수있는 자원
| ? 메인 섹션 | ? ️ 서브 섹션 샘플 |
|---|
| NLP 리소스 | 종이 요약, 컨퍼런스 요약, NLP 데이터 세트 |
| NLP 팟 캐스트 | NLP 전용 팟 캐스트, 많은 NLP 에피소드가있는 팟 캐스트 |
| NLP 뉴스 레터 | - |
| NLP 회의 | - |
| NLP YouTube 채널 | - |
| NLP 벤치 마크 | 일반 NLU, 질문 답변, 다국어 |
| 연구 자원 | 변압기 모델, 증류 및 가지 치기, 자동 요약에 대한 리소스 |
| 산업 자원 | NLP 시스템의 모범 사례, NLP 용 Mlops |
| 음성 인식 | 일반 리소스, 텍스트로의 음성, 텍스트로의 음성, 데이터 세트 |
| 주제 모델링 | 블로그, 프레임 워크, 저장소 및 프로젝트 |
| 키워드 추출 | 텍스트 순위, 갈퀴, 기타 접근법 |
| 책임있는 NLP | NLP의 NLP 및 ML 해석 성, 윤리, 편견 및 평등, NLP에 대한 대적 공격 |
| NLP 프레임 워크 | 범용, 데이터 확대, 기계 번역, 적대적 공격, 대화 시스템 및 음성, 엔티티 및 문자열 일치, 비 영어 프레임 워크, 텍스트 주석 |
| 학습 NLP | 코스, 책, 튜토리얼 |
| NLP 커뮤니티 | - |
| 다른 NLP 주제 | 토큰 화, 데이터 증강, 명명 된 엔티티 인식, 오류 수정, Automl/Autonlp, 텍스트 생성 |
섹션 키워드 참고 : 종이 요약, 개요, 멋진 목록
NLP 주제에 대한 개요 및 멋진 목록 :
- NLP 지수 - 양자 STAT / NLP CYPHER에 의한 NLP 용지 검색 가능한 색인
- Keon의 멋진 NLP [Github, 16528 Stars]
- Speech and Natural Language Processing eLaboshira의 멋진 목록 [Github, 2189 Stars]
- 자연어 가공을위한 멋진 딥 러닝 (NLP) [Github, 1274 Stars]
- STEPTHOM의 텍스트 마이닝 및 자연어 처리 자원 [Github, 557 Stars]
- Philip Vollet의 #NLP 애호가를위한 Brainsources
- 멋진 AI/ML/DL -NLP 섹션 [Github, 1473 Stars]
- Devopedia의 NLP 기사
NLP 회의, 종이 요약 및 종이 개요 :
논문 및 종이 요약
- 100 명의 필수 NLP 용지 100 필수 NLP 용지 [Github, 3732 Stars]
- Dair-Ai의 NLP 종이 요약 [Github, 1475 Stars]
- NLP 실무자를위한 선별 된 논문 모음 [Github, 1075 Stars]
- 텍스트 적대적 공격 및 방어에 관한 논문 [Github, 1501 Stars]
- Valentin Malykh의 NLU 및 RL의 최근 딥 러닝 논문 [Github, 296 Stars]
- 설문 조사 설문 조사 (NLP & ML) : NLP 설문 조사 논문 수집 [Github, 1997 Stars]
- 텍스트의 스타일 전송 용지 목록 [Github, 1609 Stars]
- ? 논문 용 비디오 녹화 색인
회의 요약
- NLP Top 10 Conferences Compendium의 Soulbliss [Github, 459 Stars]
- ? ICLR 2020 트렌드
- ? Spacyirl 2019 개요에서 회의
- ? 종이 다이제스트 - 개요의 회의 및 논문
NLP 진행 및 NLP 작업 :
- Sebastianruder의 NLP 진행 [Github, 22568 Stars]
- Kyubyong의 NLP 작업 [Github, 3017 Stars]
NLP 데이터 세트 :
- Niderhoff의 NLP 데이터 세트 [Github, 5741 Stars]
- Huggingface의 데이터 세트 [Github, 19096 Stars]
- 큰 나쁜 NLP 데이터베이스
- UWA 명백한 단어 주석 - 단어 Sense Disambiguation DataSet
- MLDOC- 8 개 언어로 다국어 문서 분류를위한 코퍼스 [Github, 152 Stars]
단어와 문장 임베딩 :
- Hironsan의 멋진 임베딩 모델 [Github, 1752 Stars]
- Separius의 멋진 문장 임베딩 목록 [Github, 2219 Stars]
- Jiakui의 멋진 버트 [Github, 1846 Stars]
노트북, 스크립트 및 저장소
- Super Duper NLP Repo [웹 사이트, 2020]
영어가 아닌 자원 및 개요
- Bahasa Indonesian을위한 NLP 리소스 [Github, 480 Stars]
- Indic NLP 카탈로그 [Github, 552 Stars]
- 베트남을위한 미리 훈련 된 언어 모델 [Github, 653 Stars]
- 인디 언어 용 자연어 툴킷 (INLTK) [Github, 814 Stars]
- Indic NLP 라이브러리 [Github, 550 Stars]
- ai4bharat-indicnlp 포털
- ARBML- 많은 아랍어 NLP 및 ML 프로젝트 구현 [Github, 387 Stars]
- Zemberek -NLP- 터키를위한 NLP 도구 [Github, 1146 Stars]
- TDD AI- 모든 터키 데이터 세트, 언어 모델 및 NLP 도구를위한 오픈 소스 플랫폼.
- KLUE- 한국어 이해 평가 평가 [Github, 560 Stars]
- 페르시아 NLP 벤치 마크 - 페르시아어로 된 다양한 NLP 작업의 평가 및 비교를위한 벤치 마크 [Github, 73 Stars]
- NLP -Greek- 그리스어 소스 [Github, 5 별]
- 헝가리어를위한 멋진 NLP 리소스 [Github, 221 Stars]
미리 훈련 된 NLP 모델
- 미리 훈련 된 NLP 모델 목록 [Github, 170 Stars]
- Huawei Noah 's Ark Lab에 의해 개발 된 사전 예방 된 언어 모델 [Github, 3019 Stars]
- 스페인어 모델 및 자원 [Github, 251 Stars]
NLP 역사
일반적인
- 자연어 처리에 적용되는 현대적인 딥 러닝 기술 [Github, 1328 Stars]
- ? 자연어 처리의 신경 역사에 대한 검토 [블로그, 2018 년 10 월]
2020 년 검토
- ? 2020 년 자연 언어 처리 : 검토 연도 [블로그, 2020 년 12 월]
- ? 2020 년 ML 및 NLP 연구 하이라이트 [블로그, 2021 년 1 월]
? 목차로 돌아갑니다
NLP 전용 팟 캐스트
- ? 닐 NLP 하이라이트 [Years : 2017- 지금, 상태 : Active]
- ? 닐 NLP Zone 에피소드 [Years : 2021- 지금, 상태 : Active]
많은 NLP 에피소드
- ? ️ twiml ai [Years : 2016- 지금, 상태 : Active]
- ? 닐 실용 AI [년 : 2018- 지금, 상태 : Active]
- ? 닐 데이터 교환 [Years : 2019- 지금, 상태 : Active]
- ? 닐 그라디언트 반대 의견 [Years : 2020- 지금, 상태 : Active]
- ? ️ 머신 러닝 스트리트 토크 [Years : 2020- 지금, 상태 : Active]
- ? 닐 데이터 프레임 - 조직에서 데이터 과학의 영향을 확장하는 방법에 대한 최신 트렌드 및 통찰력 [Years : 2019- Now, 상태 : Active]
일부 NLP 에피소드
- ? 닐 슈퍼 데이터 과학 팟 캐스트 [Years : 2016- 지금, 상태 : Active]
- ? 닐 데이터 해킹 라디오 [Years : 2018- 지금, 상태 : Active]
- ? 닐 AI 게임 체인저 [Years : 2020, 상태 : Active]
- ? ️ The Analytics Show [Years : 2019- Now, Status : Active]
- ? Sebastian Ruder의 NLP 뉴스
- ? 이번 주 Robert Dale의 NLP에서
- ? 코드가있는 논문
- ? deeplearning.ai의 배치
- ? PaperDigest에 의한 종이 소화
- ? QuantumStat에 의한 NLP 사이퍼
- ? NLP 취리히 [YouTube Recordings]
- ? 해킹-기계 학습 [YouTube 녹음]
- ? NY-NLP (뉴욕)
- ? Yannic Kilcher
- ? 포옹 페이스
- ? Kaggle Reading Group
- ? RASA 종이 읽기
- ? 스탠포드 CS224N : 딥 러닝이있는 NLP
- ? nlpxing
- ? ML은 설명 - AI Socratic Circles -AISC
- ? deeplearning.ai
- ? 머신 러닝 스트리트 토크
? 목차로 돌아갑니다
일반 NLU
- 접착제 - 일반 언어 이해 평가 (접착제) 벤치 마크
- SuperGlue- 새로운 언어 이해 작업의 새로운 세트와 함께 접착제 후 스타일링 된 벤치 마크
- DECANLP- 일반 NLP 모델을 연구하기위한 자연 언어 데 카틀론 (Decanlp)
- Dialoglue -Dialoglue : 작업 중심 대화에 대한 자연어 이해 벤치 마크 [Github, 280 Stars]
- Dynabench -Dynabench는 동적 데이터 수집 및 벤치마킹을위한 연구 플랫폼입니다.
- Big -Bench- 언어 모델의 기능을 측정하고 외삽하기위한 협업 벤치 마크 [Github, 2835 Stars]
요약
- Wikiasp-Wikiasp : 다중 문서 측면 기반 요약 데이터 세트
- Wikilingua- 다국어 추상적 요약 데이터 세트
질문 대답
- 분대 - 스탠포드 질문 응답 데이터 세트 (분대)
- Xquad-Xquad (교차 언어 질문 답변 데이터 세트) 교차 질문 답변을위한
- GRAILQA- 강력하게 일반화 가능한 질문 답변 (GrailQA)
- CSQA- 복잡한 순차적 질문 답변
다국어 및 비 영어 벤치 마크
- ? Xtreme- 대규모 다국어 멀티 태스크 벤치 마크
- Gluecos- 코드 전환 NLP의 벤치 마크
- 인디 글루 - 자연 언어 이해 벤치 마크 벤치 마크
- Lince- 언어 코드 전환 평가 벤치 마크
- 러시아 슈퍼 글루 - 러시아 슈퍼 글루 벤치 마크
바이오, 법률 및 기타 과학 영역
- Blurb- 생의학 언어 이해 및 추론 벤치 마크
- 블루 - 생물 의학 언어 이해 평가 벤치 마크
- LexGlue- 영어로 법적 언어 이해를위한 벤치 마크 데이터 세트
변압기 효율성
- 장거리 경기장-효율적인 변압기 벤치마킹을위한 장거리 경기장 (사전 프린트) [Github, 716 Stars]
음성 처리
다른
- CodexGlue- 코드 인텔리전스를위한 벤치 마크 데이터 세트
- Crossner -Crossner : Cross -Domain이라는 이름의 Entity Recognition 평가
- Multinli- 멀티 장르 자연 언어 추론 코퍼스
- ISARCASM : 의도 된 풍자의 데이터 세트 - 이사마는 트윗의 데이터 세트로, 각각 냉소적이거나 비 Sarcastic으로 표시되어 있습니다.
? 목차로 돌아갑니다
일반적인
- ? Andrej Karpathy의 신경망을 훈련하기위한 레시피 [키워드 : 연구, 교육, 2019]
- ? 대규모 미리 훈련 된 언어 모델을 통한 NLP의 최근 발전 : 설문 조사 [논문, 2021 년 11 월]
임베딩
저장소
- 많은 언어에 대한 미리 훈련 된 엘모 표현 [Github, 1458 Stars]
- SENSE2VEC- 문맥 적으로 키워진 단어 벡터 [Github, 1617 Stars]
- Wikipedia2Vec [Github, 935 Stars]
- Starspace [Github, 3938 Stars]
- FastText [Github, 25871 Stars]
블로그
- ? David S. Batista의 언어 모델 및 상황에 맞는 단어 임베딩 [Blog, 2018]
- ? Analyticsvidhya의 NLP 실무자를위한 사전 취사 단어 임베드에 대한 필수 안내 [Blog, 2020]
- ? Polyglot Word Embeddings 발견 언어 클러스터 [Blog, 2020]
- ? Jay Alammar의 그림 Word2Vec [Blog, 2019]
교차 단어와 문장 임베딩
- VECMAP -VECMAP (Mross -LINGUAL WORD MAPPING MAPPING) [Github, 644 Stars]
- 문장 - 트랜스 포어머 - Bert와의 다국어 문장 및 이미지 임베딩 [Github, 14981 Stars]
바이트 쌍 인코딩
- BPEMB- 바이트 페어 인코딩 (BPE)을 기반으로 275 개 언어로 미리 훈련 된 서브 워드 임베딩 [Github, 1179 Stars]
- Subword -NMT- 신경 기계 번역 및 텍스트 생성을위한 감독되지 않은 단어 세분화 [Github, 2185 Stars]
- Python -BPE- 파이썬에 대한 바이트 쌍 인코딩 [Github, 223 Stars]
변압기 기반 아키텍처
일반적인
- ? Lilian Weng의 Transformer 제품군 [Blog, 2020]
- ? 보상과 여러 언어로 복권 연주 - 무작위 초기화의 효과에 대해 [ICLR 2020 Paper]
- ? 주목? 주목! Lilian Weng [Blog, 2018]
- ? 변압기…“설명”? [블로그, 2019]
- ? ️주의가 필요한 전부입니다. 우쿠 카스 카이저의주의 신경 네트워크 모델 [Talk, 2017]
- ? 한 번에주의를 기울여야한다 [2023 년 7 월]
- ? ️ NLP에 대한 자체 정보 이해 및 적용 [Talk, 2018]
- ? NLP 요리 책 : 변압기 기반 딥 러닝 아키텍처를위한 현대 레시피 [Paper, 2021 년 4 월]
- ? 미리 훈련 된 모델 : 과거, 현재 및 미래 [Paper, 2021 년 6 월]
- ? 변압기 조사 [Paper, 2021 년 6 월]
변신 로봇
- ? Harvard NLP의 주석이 달린 변압기 [Blog, 2018]
- ? Jay Alammar의 일러스트 변압기 [Blog, 2018]
- ? Hong Jing의 변압기에 대한 그림 가이드 [Blog, 2020]
- ? Facebook의 적응 형 트랜스포머 스팬. 블로그 [블로그, 2019]
- ? Lena Voita의 변압기 표현의 진화 [Blog, 2019]
- ? 개혁자 : 효율적인 변압기 [Blog, 2020]
- ? Longformer-Viktor Karlsson의 Long-Document Transformer [Blog, 2020]
- ? 처음부터 트랜스포머 [Blog, 2019]
- ? 자연어 처리의 변압기 - George Ho의 간단한 조사 [블로그, 2020 년 5 월]
- Lite Transformer -Long Short 범위의주의가있는 Lite 변압기 [Github, 596 Stars]
- ? 처음부터 트랜스포머 [블로그, 2021 년 10 월]
버트
- ? Jay Alammar의 Bert 사용에 대한 시각적 가이드 [Blog, 2019]
- ? Anna Rogers의 Bert의 어두운 비밀 [Blog, 2020]
- ? 그 어느 때보 다 검색 이해 [Blog, 2019]
- ? Demystifying Bert : 획기적인 NLP 프레임 워크에 대한 포괄적 인 가이드 [Blog, 2019]
- SEMBERT- 언어 이해를위한 시맨틱 인식 버트 [Github, 286 Stars]
- Bertweet -Bertweet : 영어 트윗을위한 미리 훈련 된 언어 모델 [Github, 574 Stars]
- Bert에 대한 최적의 하위 구조 추출 [Github, 470 Stars]
- 캐릭터 : Elmo와 Bert 조정 [Github, 195 Stars]
- ? Bert가 복권을 연주하면 모든 티켓이 승리하고 있습니다 [Blog, 2020 년 12 월]
- Bert 관련 논문 Bert 관련 논문 목록 [Github, 2032 Stars]
다른 변압기 변형
T5
- ? T5 변압기 기반 자체 감독 아키텍처 이해 [블로그, 2020 년 8 월]
- ? T5 : 텍스트-텍스트 전송 변압기 [Blog, 2020]
- 다국어 T5- 다국어 T5 (MT5)는 대규모 다국어 사방 텍스트-텍스트 변압기 모델입니다 [Github, 1245 Stars]
빅 버드
- ? Big Bird : Google Research의 더 긴 시퀀스를위한 변압기 [Paper, 2020 년 7 월]
개혁자 / Linformer / Longformer / Performers
- ? ️ 개혁자 : 효율적인 변압기 - [Paper, 2020 년 2 월] [비디오, 2020 년 10 월]
- ? ️ Longformer : Long -Document Transformer- [Paper, 2020 년 4 월] [비디오, 2020 년 4 월]
- ? 닐 Linformer : 선형 복잡성에 대한 자체 소송 - [Paper, 2020 년 6 월] [비디오, 2020 년 6 월]
- ? ️ 공연자들과의 관심을 다시 생각해보십시오 - [Paper, 2020 년 9 월] [비디오, 2020 년 9 월]
- Performer-Pytorch- Pytorch [Github, 1084 Stars]에서 Performer, 선형주의 기반 변압기의 구현.
스위치 변압기
- ? 스위치 트랜스포머 : 구글 리서치의 원본 용지 [Paper, 2021 년 1 월]
GPT- 가족
일반적인
- ? Jay Alammar의 그림 GPT-2 [Blog, 2019]
- ? Aman Arora의 주석이 달린 GPT-2
- ? Openai의 GPT-2 : The Model, The Hype 및 The 논쟁 Ryan Lowe [Blog, 2019]
- ? Patrick von Platen의 텍스트 생성 방법 [Blog, 2020]
GPT-3
학습 리소스
- ? Amit Chaudhary의 텍스트 분류를위한 제로 샷 학습 [Blog, 2020]
- ? GPT-3 Leo Gao의 간단한 요약 [Blog, 2020]
- ? GPT-3, 딥 러닝을위한 거대한 단계 및 Yoel Zeldes의 NLP [Blog, 2020 년 6 월]
- ? GPT-3 언어 모델 : Chuan Li의 기술 개요 [블로그, 2020 년 6 월]
- ? 언어 모델이 언어 이해를 달성 할 수 있습니까? Christopher Potts에 의해
응용 프로그램
- 멋진 GPT-3- GPT-3 관련 모든 리소스 목록 [Github, 4589 Stars]
- GPT-3 프로젝트-모든 GPT-3 신생 기업 및 상업 프로젝트의지도
- GPT-3 데모 쇼케이스 -GPT-3 데모 쇼케이스, 180+ 앱, 예제 및 리소스
- ? OpenAi API -API 데모 상용 응용 프로그램에 OpenAi Gpt를 사용합니다.
오픈 소스 노력
- ? GPT-NEO- 진행중인 GPT-3 오픈 소스 복제 Hupgingface Hub
- GPT -J- 60 억 파라미터, 자동 회귀 텍스트 생성 모델은 더미에 훈련되었습니다.
- ? 소수의 학습과 함께 GPT-J를 효과적으로 사용 [블로그, 2021 년 7 월]
다른
- ? Xu Liang의 XLNET의 2 스트림 자체 변환은 무엇입니까 [Blog, 2019]
- ? 시각적 논문 요약 : Amit Chaudhary의 Albert (Lite Bert) [Blog, 2020]
- ? Microsoft의 Turing NLG
- ? Josh Xin Jie Lee의 XLNET을 통한 다중 라벨 텍스트 분류 [Blog, 2019]
- Electra [Github, 2326 개의 별]
- Pytorch에서 선형주의 기반 변압기 인 Performer 구현 [Github, 1084 Stars]
증류, 가지 치기 및 양자화
독서 자료
- ? Floydhub의 더 작고 빠른 모델을 구축하기 위해 신경망의 지식을 증류합니다 [Blog, 2019]
- ? 텍스트에 대한 딥 러닝 모델 압축 : 설문 조사 [논문, 2021 년 4 월]
도구
- Bert-Squeeze- 변압기 기반 모델의 크기를 줄이거 나 추론 시간에 대기 시간을 줄이기위한 코드 [Github, 79 Stars]
- Xtremedistil- 대규모 다국어 신경망을 증류하기위한 Xtremedistiltransformers [Github, 153 Stars]
자동 요약
- ? 페가수스 : Google AI의 추상적 텍스트 요약을위한 최첨단 모델 [블로그, 2020 년 6 월]
- ctrlsum -ctrlsum : 일반적인 제어 가능한 텍스트 요약을 향해 [Github, 146 Stars]
- XL-SUM-XL-SUM : 44 개 언어에 대한 대규모 다국어 추상적 요약 [Github, 252 Stars]
- Summertime- 비 출입구를위한 오픈 소스 텍스트 요약 툴킷 [Github, 265 Stars]
- 프라이머-프라이머 : 다중 문서 요약을위한 피라미드 기반 가면 문장 사전 훈련 [Github, 151 Stars]
- Summarus- 자동 추상 요약을위한 모델 [Github, 170 Stars]
지식 그래프 및 NLP
- ? 언어 모델로의 지식 융합 [프레젠테이션, 2021 년 10 월]
참고 섹션 키워드 : 모범 사례, Mlops
? 목차로 돌아갑니다
NLP 프로젝트 구축을위한 모범 사례
- ? NLP 프로젝트의 모범 사례를 찾아서 [Slides, 2020 년 12 월]
- ? EMNLP 2020 : Google Research, Recording의 고성능 자연어 처리, 2020 년 11 월]
- ? 실제 자연어 처리 - 실제 NLP 시스템 구축에 대한 포괄적 인 안내서 [Book, 2020 년 6 월]
- ? NLP 프로젝트를 구성하고 관리하는 방법 [블로그, 2021 년 5 월]
- ? 응용 NLP 사고 - 응용 NLP 사고 : 문제를 솔루션으로 변환하는 방법 [블로그, 2021 년 6 월]
- ? 업계 사용을위한 NLP 소개 -DatatalkSclub 업계 사용을위한 NLP 소개에 대한 DatatalkSclub 프레젠테이션 [Recording, 2021 년 12 월]
- ? 드리프트 임베딩 측정 - NLP 모델의 드리프트 모니터링을위한 모범 사례 [블로그, 2022 년 12 월]
NLP 용 Mlops
특히 NLP에 적용될 때 MLOPS는 NLP 파이프 라인을 구축하고 배포 할 때 워크 플로의 여러 부분을 자동화하는 데있어 일련의 모범 사례입니다.
일반적으로 NLP 용 MLOPS에는 다음 과정이 포함됩니다.
- 데이터 버전 작성 - 교육, 주석 및 기타 유형의 데이터가 버전 및 추적인지 확인하십시오.
- 실험 추적 - 모든 실험이 쉽게 복제되거나 복원 될 수있는 곳에 자동으로 추적되고 저장되도록하십시오.
- Model Registry- 훈련하는 신경 모델이 버전 및 추적되었는지 확인하고 그 중 어느 쪽이든 쉽게 롤백하기 쉽습니다.
- 자동 테스트 및 행동 테스트 - 정기적 인 단위 및 통합 테스트 외에, 편견 또는 잠재적 적대적 공격을 확인하는 행동 테스트를 원합니다.
- 모델 배포 및 서빙 - 블루/그린, 카나리아 배포 등과 같은 제로 다운 타임 배포 등의 모델 배포 자동화
- 데이터 및 모델 관찰 가능성 - 추적 데이터 드리프트, 모델 정확도 드리프트 등
또한 NLP에는 널리 퍼지지 않고 Computer Vision 및 AI의 다른 하위 필드에 주로 사용되는 두 가지 구성 요소가 더 있습니다.
- 기능 저장소 - 다른 ML 프로젝트에서 쉽게 재사용 할 수있는 것보다 ML 모델 용으로 개발 된 모든 기능의 중앙 집중식 스토리지
- 메타 데이터 관리 - ML 모델 사용과 관련된 모든 정보를위한 스토리지, 주로 배포 된 ML 모델, 아티팩트 추적 등의 동작을 재현하기위한 주로.
Mlops 컴파일 및 멋진 목록
- Awesome-Mlops [Github, 12526 Stars]
- 최고의 ML-Python [Github, 16309 Stars]
- mlops.toys- 선별 된 MLOPS 프로젝트 목록
독서 자료
- ? 기계 학습 운영 (MLOPS) : 개요, 정의 및 아키텍처 [Paper, 2022 년 5 월]
- ? MLOPS의 요구 사항 및 참조 아키텍처 : 산업의 통찰력 [Paper, 2022 년 10 월]
- ? Mlops : 그것이 무엇인지, 그것이 중요한 이유, 그리고 Neptune AI에 의해 그것을 구현하는 방법 [Blog, 2021 년 7 월]
- ? Neptune AI의 데이터 과학자로 알아야 할 최고의 MLOPS 도구 [Blog, 2021 년 7 월]
- ? Valohai의 Mlops 주 2021 [Blog, 2021 년 8 월]
- ? Valohai의 Mlops 스택 [Blog, 2020 년 10 월]
- ? Megagon AI의 기계 학습 응용 프로그램에 대한 데이터 버전 제어 [블로그, 2021 년 7 월]
- ? 기계 학습을위한 표준 스택의 빠른 진화 [블로그, 2021 년 7 월]
- ? Mlops : 포괄적 인 초보자 가이드 [블로그, 2021 년 3 월]
- ? MLOPS에 대해 100 명 이상의 ML 실무자와 대화하는 것에 대해 배운 것 [블로그, 2021 년 5 월]
- ? Datarobot Challenger 모델 - MLOPS 챔피언/챌린저 모델
- ? Dr. Ori Cohen의 Mlops 블로그
- ? MLOPS 생태계 개요 [블로그, 2021]
학습 자료
- ? mlops cource ml로 만들어졌습니다
- ? Github Mlops- Github로 기계 학습 OPS를 용이하게하는 방법에 대한 리소스 모음
- ? ML Observability Fundamentals 코스 프로덕션 NLP 모델의 모니터링 및 근본 문제를 배웁니다.
Mlops 커뮤니티
- Mlops 커뮤니티 - 블로그, 슬랙 그룹, 뉴스 레터 등 Mlops에 관한 모든 것
데이터 버전 작성
- DVC- 데이터 버전 제어 (DVC) 추적 ML 모델 및 데이터 세트 [무료 및 오픈 소스] GitHub에 대한 링크
- ? 가중치 및 바이어스 - 실험 추적 및 데이터 세트 버전 관리 도구 [유료 서비스]
- ? PACHYDERM- 확장 가능한 엔드 투 엔드 ML/AI 파이프 라인을 구축하는 도구가 포함 된 데이터에 대한 버전 제어 [무료 계층이있는 유료 서비스]
실험 추적
- MLFLOW- 머신 러닝 라이프 사이클을위한 오픈 소스 플랫폼 [무료 및 오픈 소스] GitHub에 대한 링크
- ? 가중치 및 바이어스 - 실험 추적 및 데이터 세트 버전 관리 도구 [유료 서비스]
- ? Neptune AI- 연구 및 생산 팀을 위해 구축 된 실험 추적 및 모델 레지스트리 [유료 서비스]
- ? COMET ML- 데이터 과학자와 팀이 실험 및 모델을 추적, 비교, 설명 및 최적화 할 수 있습니다 [유료 서비스]
- ? SIGOPT- 교육 및 조정 자동화, 시각화 및 비교 실행 [유료 서비스]
- Optuna -Hyperparameter 최적화 프레임 워크 [Github, 10650 Stars]
- CLEAR ML- 실험, 오케스트레이션, 배치 및 데이터 스토어 구축 한 곳에서 [무료 및 오픈 소스] Github에 대한 링크
- Metaflow- 과학자와 엔지니어가 실제 데이터 과학 프로젝트를 구축하고 관리하도록 돕는 인간 친화적 인 Python/R 라이브러리 [Github, 8093 Stars]
모델 레지스트리
- DVC- 데이터 버전 제어 (DVC) 추적 ML 모델 및 데이터 세트 [무료 및 오픈 소스] GitHub에 대한 링크
- MLFLOW- 머신 러닝 라이프 사이클을위한 오픈 소스 플랫폼 [무료 및 오픈 소스] GitHub에 대한 링크
- ModelDB- 기계 학습 모델 버전, 메타 데이터 및 실험 관리를위한 오픈 소스 시스템 [Github, 1696 Stars]
- ? Neptune AI- 연구 및 생산 팀을 위해 구축 된 실험 추적 및 모델 레지스트리 [유료 서비스]
- ? Valohai- 엔드 투 엔드 ML 파이프 라인 [유료 서비스]
- ? PACHYDERM- 확장 가능한 엔드 투 엔드 ML/AI 파이프 라인을 구축하는 도구가 포함 된 데이터에 대한 버전 제어 [무료 계층이있는 유료 서비스]
- ? Polyaxon- 프로덕션 등급 MLOPS 도구를 사용하여 데이터 과학 워크 플로우를 재생산, 자동화 및 확장합니다. [유료 서비스]
- ? COMET ML- 데이터 과학자와 팀이 실험 및 모델을 추적, 비교, 설명 및 최적화 할 수 있습니다 [유료 서비스]
자동 테스트 및 행동 테스트
- 체크리스트 - 비교 정확도 : NLP 모델의 행동 테스트 [Github, 2003 Stars]
- TEXTATCACK- NLP의 적대 공격, 데이터 증강 및 모델 교육을위한 프레임 워크 [Github, 2922 Stars]
- Wildnlp- NLP 모델의 견고성을 테스트하기 위해 입력 텍스트를 손상 시켰습니다 [Github, 76 Stars]
- 큰 기대 - 데이터 작성 테스트 [Github, 9874 Stars]
- DeepChecks- 기계 학습 모델 및 데이터를 종합적으로 검증하기위한 파이썬 패키지 [Github, 3582 Stars]
모델 배포 및 서빙
- MLFLOW- 머신 러닝 라이프 사이클을위한 오픈 소스 플랫폼 [무료 및 오픈 소스] GitHub에 대한 링크
- ? Amazon Sagemaker [유료 서비스]
- ? Valohai- 엔드 투 엔드 ML 파이프 라인 [유료 서비스]
- ? NLP 클라우드 - 생산 준비 NLP API [유료 서비스]
- ? 토성 클라우드 [유료 서비스]
- ? SELDON- 엔터프라이즈 용 머신 러닝 배포 [유료 서비스]
- ? COMET ML- 데이터 과학자와 팀이 실험 및 모델을 추적, 비교, 설명 및 최적화 할 수 있습니다 [유료 서비스]
- ? Polyaxon- 프로덕션 등급 MLOPS 도구를 사용하여 데이터 과학 워크 플로우를 재생산, 자동화 및 확장합니다. [유료 서비스]
- Torchserve- Pytorch 모델을 제공하기위한 유연하고 사용하기 쉬운 도구 [Github, 4174 Stars]
- ? Kubeflow- Kubernetes 용 머신 러닝 툴킷 [Github, 10600 Stars]
- KFSERVING- Kubernetes의 서버리스 추론 [Github, 3504 Stars]
- ? TFX- Tensorflow 확장 - 생산 ML 파이프 라인 배포를위한 엔드 투 엔드 플랫폼 [유료 서비스]
- ? PACHYDERM- 확장 가능한 엔드 투 엔드 ML/AI 파이프 라인을 구축하는 도구가 포함 된 데이터에 대한 버전 제어 [무료 계층이있는 유료 서비스]
- ? 피질 - AWS 서비스로서의 컨테이너 [유료 서비스]
- ? Azure Machine Learning- 엔드 투 엔드 머신 러닝 라이프 사이클 [유료 서비스]
- AWS Lambda의 End2end Serverless Transformers [Github, 121 Stars]
- NLP 서비스 - Fastapi 및 Hugging Face를 사용하여 구축 된 서비스 플랫폼으로서 NLP의 샘플 데모 [Github, 13 Stars]
- ? Dagster- 기계 학습을위한 데이터 오케스트레이터 [무료 및 오픈 소스]
- ? VERTA -AI 및 기계 학습 배포 및 운영 [유료 서비스]
- Metaflow- 과학자와 엔지니어가 실제 데이터 과학 프로젝트를 구축하고 관리하도록 돕는 인간 친화적 인 Python/R 라이브러리 [Github, 8093 Stars]
- Flyte- 복잡한 미션 크리티컬 데이터 및 ML 프로세스를위한 워크 플로 자동화 플랫폼 [Github, 5525 Stars]
- MLRUN- 기계 학습 자동화 및 추적 [Github, 1425 Stars]
- ? Datarobot Mlops -Datarobot Mlops
모델 디버깅
- Imodels- 간결하고 투명하며 정확한 예측 모델링 패키지 [Github, 1375 Stars]
- 조종석 - 심층 신경망을 훈련하기위한 실용적인 디버깅 도구 [Github, 474 Stars]
모델 정확도 예측
- WeightWatcher -Deep Neural Networks의 정확성을 예측하기위한 Weightwatcher 도구 [Github, 1453 Stars]
데이터 및 모델 관찰 가능성
일반적인
- ARIZE AI- NLP 모델에 대한 드리프트 모니터링
- Arrize -Phoenix -LLM, 비전, 언어 및 표의 ML 관찰 가능성
- WhyLogs- 데이터 및 ML 로깅의 오픈 소스 표준 [Github, 2636 Stars]
- RUBRIX- 인공 지능 프로젝트 데이터 탐색 및 반복을위한 오픈 소스 도구 [Github, 3843 Stars]
- MLRUN- 기계 학습 자동화 및 추적 [Github, 1425 Stars]
- ? Datarobot Mlops -Datarobot Mlops
- ? 피질 - AWS 서비스로서의 컨테이너 [유료 서비스]
모델 중심
- ? 알고리즘 - 모든 데이터, 모델 및 인프라에서 고급보고 및 엔터프라이즈 등급 보안 및 거버넌스로 위험을 최소화 [유료 서비스]
- ? Dataiku -Dataiku는 빅 데이터 스케일에서 최신 기술을 사용하여 고급 분석을 제공하려는 팀을위한 것입니다 [유료 서비스]
- 분명히 AI- 기계 학습 모델을 분석하고 모니터링하는 도구 [무료 및 오픈 소스] GitHub에 대한 링크
- ? 피들러 -ML 모델 성능 관리 도구 [유료 서비스]
- ? Hydosphere- ML 모델 관리를위한 오픈 소스 플랫폼 [유료 서비스]
- ? VERTA -AI 및 기계 학습 배포 및 운영 [유료 서비스]
- ? Domino Model Ops- 모델을 배포하고 관리하여 비즈니스 영향을 유도 [유료 서비스]
데이터 중심
- ? Datafold- Diffs, 프로파일 링 및 이상 탐지를 통한 데이터 품질 [유료 서비스]
- ? AccelData- 모든 데이터 파이프 라인에서 신뢰성 향상, 규모 가속도 및 비용 절감 [유료 서비스]
- ? BIGEYE- 몇 분 안에 데이터 세트 모니터링 및 경고 [유료 서비스]
- ? Datakin- 엔드 투 엔드, 실시간 데이터 계보 솔루션 [유료 서비스]
- ? Monte Carlo- 데이터 무결성, 드리프트, 스키마, 계보 [유료 서비스]
- ? 소다 - 데이터 모니터링, 테스트 및 검증 [유료 서비스]
기능 상점
- ? Tecton- 기계 학습을위한 엔터프라이즈 기능 상점 [유료 서비스]
- FEAST- 기계 학습 웹 사이트를위한 오픈 소스 기능 상점 [GitHub, 5525 Stars]
- ? Hopsworks Feature Store- 기계 학습 기능 관리를위한 데이터 관리 시스템 [유료 서비스]
메타 데이터 관리
- ML 메타 데이터 - ML 개발자 및 데이터 과학자 워크 플로와 관련된 메타 데이터 기록 및 검색을위한 라이브러리 [Github, 617 Stars]
- ? Neptune AI- 연구 및 생산 팀을 위해 구축 된 실험 추적 및 모델 레지스트리 [유료 서비스]
Mlops 프레임 워크
- Metaflow- 과학자와 엔지니어가 실제 데이터 과학 프로젝트를 구축하고 관리하도록 돕는 인간 친화적 인 Python/R 라이브러리 [Github, 8093 Stars]
- KEDRO- 재현 가능, 유지 관리 및 모듈 식 데이터 과학 코드 생성을위한 파이썬 프레임 워크 [Github, 9883 Stars]
- SELDON CORE -MLOPS 프레임 워크 수천 개의 프로덕션 머신 러닝 모델 패키지, 배포, 모니터링 및 관리 [GitHub, 4353 Stars]
- ZENML -MLOPS 프레임 워크 생산 기계 학습을위한 재현 가능한 ML 파이프 라인 [GitHub, 3972 Stars]
- ? Google Vertex AI- Unified AI 플랫폼 내에서 미리 훈련되고 맞춤형 툴링을 사용하여 ML 모델 빌드, 배포 및 스케일 ML 모델 [유료 서비스]
- DIFFGRAM- 단일 응용 프로그램으로 전달 된 머신 러닝을위한 완전한 교육 데이터 플랫폼 [Github, 1834 Stars]
- ? continual.ai- 눈송이, BigQuery, Redshift 및 Databricks와 같은 클라우드 데이터웨어 하우스의 선언적 인터페이스를 통해 ML 모델을보다 쉽고 더 쉽고 더 빠르게 빌드, 배포 및 운영합니다. [유료 서비스]
변압기 기반 아키텍처
? 목차로 돌아갑니다
일반적인
- ? Bert가 Intel AI의 상업 환경에서 실패하는 이유 [Blog, 2020]
- ? Sebastian Guggisberg의 농장으로 텍스트 분류를위한 미세 튜닝 버트 [Blog, 2020]
- 포옹 페이스 트랜스포머를 사용한 Pytorch의 전제 변압기 모델 [Github, 254 Stars]
- ? 닐 실제 세계를위한 실용적 NLP [프레젠테이션, 2019]
- ? ️ 종이에서 제품까지 - Christoph Henkelmann의 Bert를 구현 한 방법 [Talk, 2020]
멀티 GPU 변압기
- ParallEformers : 배포를위한 효율적인 모델 병렬화 툴킷 [Github, 776 Stars]
트랜스포머를 효과적으로 훈련시킵니다
- Compute/Time (Academic) 예산을 가진 훈련 버트 [Github, 309 Stars]
서비스로서의 임베딩
- 봉사와 관련하여 [Github, 204 개의 별]
- Bert-as-service [Github, 12399 Stars]
NLP 레시피 산업 응용 프로그램 :
- Microsoft의 NLP 레시피 [Github, 6367 Stars]
- Susanli2016의 Python과 NLP [Github, 2721 Stars]
- Petrochukm의 Pytorch NLP의 기본 유틸리티 [Github, 2210 Stars]
바이오, 금융, 법률 및 기타 산업의 NLP 응용 프로그램
- BLACKSTONE- 구조화되지 않은 법률 텍스트에서 NLP 용 스파이 파이프 라인 및 모델 [Github, 636 Stars]
- Sci Spacy- 과학/생물 의학 문서를위한 스파이 파이프 라인 및 모델 [Github, 1688 Stars]
- Finbert : 재무 NLP 작업에 대한 SEC 제출에 미리 훈련 된 [Github, 197 Stars]
- LEXNLP- 실제 비정형 법률 텍스트에 대한 정보 검색 및 추출 [Github, 692 Stars]
- Nerdl and Nercrf- SparkNLP를 사용한 의료에 대한 명명 된 엔티티 인식 튜토리얼
- 법률 텍스트 분석 - 법률 텍스트 분석 전용 선택된 리소스 목록 [Github, 613 Stars]
- Bioie- 생물 의학 정보 추출과 관련된 선별 된 자원 목록 [Github, 338 Stars]
참고 섹션 키워드 : 음성 인식
? 목차로 돌아갑니다
일반적인 음성 인식
- Wav2letter- 자동 음성 인식 툴킷 [Github, 6370 Stars]
- DeepSpeech -Baidu의 DeepSpeech 아키텍처 [Github, 25166 Stars]
- ? Maria Obedkova의 음향 단어 임베딩 [Blog, 2020]
- Kaldi -Kaldi는 음성 인식을위한 툴킷입니다 [Github, 14177 Stars]
- Awesome -Kaldi- Kaldi 사용을위한 자원 [Github, 532 Stars]
- ESPNET-End-to-End Speech Processing Toolkit [Github, 8355 Stars]
- ? Hubert- 음성 인식, 세대 및 압축을위한 자체 감독 대표 학습 [Blog, 2021 년 6 월]
연설 / 언어 생성에 대한 텍스트
- FASTSPEECH -PYTORCH를 기반으로하는 FastSpeech의 구현 [Github, 857 Stars]
- TTS- 텍스트 음성 연설을위한 딥 러닝 툴킷 [Github, 34356 Stars]
- ? 노트
텍스트로 연설
- Whisper- Openai의 대규모 약한 감독을 통한 강력한 음성 인식 [Github, 68884 Stars]
- VIBE -Whisper, Multiedual 및 Cuda 지원으로 작업하는 GUI 도구 [Github, 931 Stars]
데이터 세트
- Voxpopuli- 대표 학습을위한 대규모 다국어 연설 코퍼스 [Github, 507 Stars]
참고 섹션 키워드 : 주제 모델링
? 목차로 돌아갑니다
블로그
- ? Maria Obedkova의 Pyspark 및 Spark NLP를 사용한 주제 모델링 [Spark, Blog, 2020]
- ? Brittany Bowers의 짧은 텍스트 클러스터링 (알고리즘 이론)에 대한 독특한 접근법 [Blog, 2020]
주제 모델링을위한 프레임 워크
- Gensim- 주제 모델링을위한 프레임 워크 [Github, 15597 Stars]
- Spark NLP [Github, 3826 Stars]
저장소
- Top2Vec [Github, 2924 Stars]
- 고정 된 상관 관계 설명 주제 모델링 [Github, 303 Stars]
- 임베딩 공간의 주제 모델링 [Github, 540 Stars] 용지
- TopicNet - A high-level interface for BigARTM library [GitHub, 140 stars]
- BERTopic - Leveraging BERT and a class-based TF-IDF to create easily interpretable topics [GitHub, 6038 stars]
- OCTIS - A python package to optimize and evaluate topic models [GitHub, 718 stars]
- Contextualized Topic Models [GitHub, 1196 stars]
- GSDMM - GSDMM: Short text clustering [GitHub, 353 stars]
Note Section keywords: keyword extraction
? Back to the Table of Contents
Text Rank
- PyTextRank - PyTextRank is a Python implementation of TextRank as a spaCy pipeline extension [GitHub, 2132 stars]
- textrank - TextRank implementation for Python 3 [GitHub, 1248 stars]
RAKE - Rapid Automatic Keyword Extraction
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
- yake - Single-document unsupervised keyword extraction [GitHub, 1632 stars]
- RAKE-tutorial - A python implementation of the Rapid Automatic Keyword Extraction [GitHub, 375 stars]
- rake-nltk - Rapid Automatic Keyword Extraction algorithm using NLTK [GitHub, 1061 stars]
Other Approaches
- flashtext - Extract Keywords from sentence or Replace keywords in sentences [GitHub, 5583 stars]
- BERT-Keyword-Extractor - Deep Keyphrase Extraction using BERT [GitHub, 254 stars]
- keyBERT - Minimal keyword extraction with BERT [GitHub, 3471 stars]
- KeyphraseVectorizers - vectorizers that extract keyphrases with part-of-speech patterns [GitHub, 251 stars]
추가 독서
- ? Adding a custom tokenizer to spaCy and extracting keywords from Chinese texts by Haowen Jiang [Blog, Feb 2021]
- ? How to Extract Relevant Keywords with KeyBERT [Blog, June 2021]
Note Section keywords: ethics, responsible NLP
? Back to the Table of Contents
NLP and ML Interpretability
NLP-centric
- Explainability for Natural Language Processing - KDD'2021 Tutorial Slides [Presentation, August 2021]
- ecco - Tools to visuals and explore NLP language models [GitHub, 1974 stars]
- NLP Profiler - A simple NLP library allows profiling datasets with text columns [GitHub, 243 stars]
- transformers-interpret - Model explainability that works seamlessly with transformers [GitHub, 1278 stars]
- Awesome-explainable-AI - collection of research materials on explainable AI/ML [GitHub, 1400 stars]
- LAMA - LAMA is a probe for analyzing the factual and commonsense knowledge contained in pretrained language models [GitHub, 1346 stars]
일반적인
- Language Interpretability Tool (LIT) [GitHub, 3474 stars]
- WhatLies - Toolkit to help visualise - what lies in word embeddings [GitHub, 468 stars]
- Interpret-Text - Interpretability techniques and visualization dashboards for NLP models [GitHub, 413 stars]
- InterpretML - Fit interpretable models. Explain blackbox machine learning [GitHub, 6238 stars]
- thermostat - Collection of NLP model explanations and accompanying analysis tools [GitHub, 143 stars]
- Dodrio - Exploring attention weights in transformer-based models with linguistic knowledge [GitHub, 342 stars]
- imodels - package for concise, transparent, and accurate predictive modeling [GitHub, 1375 stars]
Ethics, Bias, and Equality in NLP
- ? Bias in Natural Language Processing @EMNLP 2020 [Blog, Nov 2020]
- ?️ Machine Learning as a Software Engineering Enterprise - NeurIPS 2020 Keynote [Presentation, Dec 2020]
- Ethics in NLP - resources from ACLs Ethics in NLP track
- The Institute for Ethical AI & Machine Learning
- ? Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models [Paper, Feb 2021]
- Fairness-in-AI - this package is used to detect and mitigate biases in NLP tasks [GitHub, 77 stars]
- nlg-bias - dataset + classifier tools to study social perception biases in natural language generation [GitHub, 65 stars]
- bias-in-nlp - list of papers related to bias in NLP [GitHub, 9 stars]
Adversarial Attacks for NLP
- ? Privacy Considerations in Large Language Models [Blog, Dec 2020]
- DeepWordBug - Generation of Adversarial Text Sequences to Evade Deep Learning Classifiers [GitHub, 73 stars]
- Adversarial-Misspellings - Combating Adversarial Misspellings with Robust Word Recognition [GitHub, 62 stars]
Hate Speech Analysis
- HateXplain - BERT for detecting abusive language [GitHub, 187 stars]
Note Section keywords: frameworks
? Back to the Table of Contents
범용
- spaCy by Explosion AI [GitHub, 29784 stars]
- flair by Zalando [GitHub, 13855 stars]
- AllenNLP by AI2 [GitHub, 11740 stars]
- stanza (former Stanford NLP) [GitHub, 7253 stars]
- spaCy stanza [GitHub, 723 stars]
- nltk [GitHub, 13489 stars]
- gensim - framework for topic modeling [GitHub, 15597 stars]
- pororo - Platform of neural models for natural language processing [GitHub, 1279 stars]
- NLP Architect - A Deep Learning NLP/NLU library by Intel® AI Lab [GitHub, 2936 stars]
- FARM [GitHub, 1734 stars]
- gobbli by RTI International [GitHub, 275 stars]
- headliner - training and deployment of seq2seq models [GitHub, 229 stars]
- SyferText - A privacy preserving NLP framework [GitHub, 197 stars]
- DeText - Text Understanding Framework for Ranking and Classification Tasks [GitHub, 1263 stars]
- TextHero - Text preprocessing, representation and visualization [GitHub, 2882 stars]
- textblob - TextBlob: Simplified Text Processing [GitHub, 9109 stars]
- AdaptNLP - A high level framework and library for NLP [GitHub, 407 stars]
- textacy - NLP, before and after spaCy [GitHub, 2209 stars]
- texar - Toolkit for Machine Learning, Natural Language Processing, and Text Generation, in TensorFlow [GitHub, 2388 stars]
- jiant - jiant is an NLP toolkit [GitHub, 1639 stars]
Data Augmentation
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- faker - Python package that generates fake data for you [GitHub, 17648 stars]
- textflint - Unified Multilingual Robustness Evaluation Toolkit for NLP [GitHub, 639 stars]
- Parrot - Practical and feature-rich paraphrasing framework [GitHub, 871 stars]
- AugLy - data augmentations library for audio, image, text, and video [GitHub, 4950 stars]
- TextAugment - Python 3 library for augmenting text for natural language processing applications [GitHub, 396 stars]
Adversarial NLP Attacks & Behavioral Testing
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- CleverHans - adversarial example library for constructing NLP attacks and building defenses [GitHub, 6172 stars]
- CheckList - Beyond Accuracy: Behavioral Testing of NLP models [GitHub, 2003 stars]
Transformer-oriented
- transformers by HuggingFace [GitHub, 132974 stars]
- Adapter Hub and its documentation - Adapter modules for Transformers [GitHub, 2543 stars]
- haystack - Transformers at scale for question answering & neural search. [GitHub, 16997 stars]
Dialogue Systems and Speech
- DeepPavlov by MIPT [GitHub, 6676 stars]
- ParlAI by FAIR [GitHub, 10477 stars]
- rasa - Framework for Conversational Agents [GitHub, 18726 stars]
- wav2letter - Automatic Speech Recognition Toolkit [GitHub, 6370 stars]
- ChatterBot - conversational dialog engine for creating chatbots [GitHub, 14039 stars]
- SpeechBrain - open-source and all-in-one speech toolkit based on PyTorch [GitHub, 8674 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Word/Sentence-embeddings oriented
- MUSE A library for Multilingual Unsupervised or Supervised word Embeddings [GitHub, 3181 stars]
- vecmap A framework to learn cross-lingual word embedding mappings [GitHub, 644 stars]
- sentence-transformers - Multilingual Sentence & Image Embeddings with BERT [GitHub, 14981 stars]
Social Media Oriented
- Ekphrasis - text processing tool, geared towards text from social networks [GitHub, 661 stars]
음성학
- DeepPhonemizer - grapheme to phoneme conversion with deep learning [GitHub, 352 stars]
형태
- LemmInflect - python module for English lemmatization and inflection [GitHub, 259 stars]
- Inflect - generate plurals, ordinals, indefinite articles [GitHub, 964 stars]
- simplemma - simple multilingual lemmatizer for Python [GitHub, 964 stars]
Multi-lingual tools
- polyglot - Multi-lingual NLP Framework [GitHub, 2309 stars]
- trankit - Light-Weight Transformer-based Python Toolkit for Multilingual NLP [GitHub, 730 stars]
Distributed NLP / Multi-GPU NLP
- Spark NLP [GitHub, 3826 stars]
- Parallelformers: An Efficient Model Parallelization Toolkit for Deployment [GitHub, 776 stars]
기계 번역
- COMET -A Neural Framework for MT Evaluation [GitHub, 493 stars]
- marian-nmt - Fast Neural Machine Translation in C++ [GitHub, 1236 stars]
- argos-translate - Open source neural machine translation in Python [GitHub, 3771 stars]
- Opus-MT - Open neural machine translation models and web services [GitHub, 605 stars]
- dl-translate - A deep learning-based translation library built on Huggingface transformers [GitHub, 440 stars]
- CTranslate2 - CTranslate2 end-to-end machine translation [GitHub, 3300 stars]
Entity and String Matching
- PolyFuzz - Fuzzy string matching, grouping, and evaluation [GitHub, 736 stars]
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
- fuzzywuzzy - Fuzzy String Matching in Python [GitHub, 9220 stars]
- jellyfish - approximate and phonetic matching of strings [GitHub, 2049 stars]
- textdistance - Compute distance between sequences [GitHub, 3367 stars]
- DeepMatcher - Compute distance between sequences [GitHub, 555 stars]
- RE2 - Simple and Effective Text Matching with Richer Alignment Features [GitHub, 339 stars]
- Machamp - Machamp: A Generalized Entity Matching Benchmark [GitHub, 17 stars]
Discourse Analysis
- ConvoKit - Cornell Conversational Analysis Toolkit [GitHub, 543 stars]
PII scrubbing
- scrubadub - Clean personally identifiable information from dirty dirty text [GitHub, 394 stars]
Hastag Segmentation
- hashformers - automatically inserting the missing spaces between the words in a hashtag [GitHub, 68 stars]
Books Analysis / Literary Analysis / Semantic Search
- booknlp - a natural language processing pipeline that scales to books and other long documents (in English) [GitHub, 785 stars]
- bookworm - ingests novels, builds an implicit character network and a deeply analysable graph [GitHub, 76 stars]
- SemanticFinder - frontend-only live semantic search with transformers.js [GitHub, 224 stars]
Non-English oriented
일본어
- fugashi - Cython MeCab wrapper for fast, pythonic Japanese tokenization and morphological analysis [GitHub, 391 stars]
- SudachiPy - SudachiPy is a Python version of Sudachi, a Japanese morphological analyzer [GitHub, 390 stars]
- Konoha - easy-to-use Japanese Text Processing tool, which makes it possible to switch tokenizers with small changes of code [GitHub, 226 stars]
- jProcessing - Japanese Natural Langauge Processing Libraries [GitHub, 148 stars]
- Ginza - Japanese NLP Library using spaCy as framework based on Universal Dependencies [GitHub, 745 stars]
- kuromoji - self-contained and very easy to use Japanese morphological analyzer designed for search [GitHub, 953 stars]
- nagisa - Japanese tokenizer based on recurrent neural networks [GitHub, 382 stars]
- KyTea - Kyoto Text Analysis Toolkit for word segmentation and pronunciation estimation [GitHub, 201 stars]
- Jigg - Pipeline framework for easy natural language processing [GitHub, 74 stars]
- Juman++ - Juman++ (a Morphological Analyzer Toolkit) [GitHub, 376 stars]
- RakutenMA - morphological analyzer (word segmentor + PoS Tagger) for Chinese and Japanese written purely in JavaScript [GitHub, 473 stars]
- toiro - a comparison tool of Japanese tokenizers [GitHub, 118 stars]
태국
- AttaCut - Fast and Reasonably Accurate Word Tokenizer for Thai [GitHub, 79 stars]
- ThaiLMCut - Word Tokenizer for Thai Language [GitHub, 15 stars]
중국인
- Spacy-pkuseg - The pkuseg toolkit for multi-domain Chinese word segmentation [GitHub, 53 stars]
우크라이나 말
- recruitment-dataset - Recruitment Dataset Preprocessing and Recommender System (Ukrainian, English)
다른
- textblob-de - TextBlob: Simplified Text Processing for German [GitHub, 103 stars]
- Kashgari Transfer Learning with focus on Chinese [GitHub, 2389 stars]
- Underthesea - Vietnamese NLP Toolkit [GitHub, 1383 stars]
- PTT5 - Pretraining and validating the T5 model on Brazilian Portuguese data [GitHub, 84 stars]
Text Data Labelling & Classification
- Small-Text - Active Learning for Text Classifcation in Python [GitHub, 549 stars]
- Doccano - open source annotation tool for machine learning practitioners [GitHub, 9460 stars]
- Adala - Autonomous DAta (Labeling) Agent framework [GitHub, 927 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- ? Prodigy - annotation tool powered by active learning [Paid Service]
Note Section keywords: learn NLP
? Back to the Table of Contents
일반적인
- ? Learn NLP the practical way [Blog, Nov. 2019]
- ? Learn NLP the Stanford way (+Part 2) [Blog, Nov 2020]
- ? Choosing the right course for a Practical NLP Engineer
- ? 12 Best Natural Language Processing Courses & Tutorials to Learn Online
- Treasure of Transformers - Natural Language processing papers, videos, blogs, official repos along with colab Notebooks [GitHub, 912 stars]
- ?️ Rasa Algorithm Whiteboard - YouTube series by Rasa explaining various Data Science and NLP Algorithms
- ?️ ExplosionAI Videos - YouTube series by ExplosionAI teaching you how to use spacy and apply it for NLP
행동
- ?️ CS25: Transformers United Stanford - Fall 2021 [Course, Fall 2021]
- ? NLP Course | For You - Great and interactive course on NLP
- ? Advanced NLP with spaCy - how to use spaCy to build advanced natural language understanding systems
- ? Transformer models for NLP by HuggingFace
- ?️ Stanford NLP Seminar - slides from the Stanford NLP course
서적
- ? Natural Language Processing with Transformers - [Book, February 2022]
- ? Applied Natural Language Processing in the Enterprise - [Book, May 2021]
- ? Practical Natural Language Processing - [Book, June 2020]
- ? Dive into Deep Learning - An interactive deep learning book with code, math, and discussions
- ? Natural Language Processing and Computational Linguistics - Speech, Morphology and Syntax (Cognitive Science)
- ? Top NLP Books to Read 2020 - Blog post by Raymong Cheng [Blog, Sep 2020]
튜토리얼
- nlp-tutorial - A list of NLP(Natural Language Processing) tutorials built on PyTorch [GitHub, 1366 stars]
- nlp-tutorial - Natural Language Processing Tutorial for Deep Learning Researchers [GitHub, 14110 stars]
- Hands-On NLTK Tutorial [GitHub, 540 stars]
- Modern Practical Natural Language Processing [GitHub, 266 stars]
- Transformers-Tutorials - demos with the Transformers library by HuggingFace [GitHub, 9176 stars]
- CalmCode Tutorials - Set of Python Data Science Tutorials
- r/LanguageTechnology - NLP Reddit forum
? Back to the Table of Contents
Tokenization
- tokenizers - Fast State-of-the-Art Tokenizers optimized for Research and Production [GitHub, 8940 stars]
- SentencePiece - Unsupervised text tokenizer for Neural Network-based text generation [GitHub, 10141 stars]
- SoMaJo - A tokenizer and sentence splitter for German and English web and social media texts [GitHub, 135 stars]
Data Augmentation and Weak Supervision
Libraries and Frameworks
- WildNLP Text manipulation library to test NLP models [GitHub, 76 stars]
- NLPAug Data augmentation for NLP [GitHub, 4419 stars]
- SentAugment Data augmentation by retrieving similar sentences from larger datasets [GitHub, 363 stars]
- TextAttack - framework for adversarial attacks, data augmentation, and model training in NLP [GitHub, 2922 stars]
- skweak - software toolkit for weak supervision applied to NLP tasks [GitHub, 917 stars]
- NL-Augmenter - Collaborative Repository of Natural Language Transformations [GitHub, 773 stars]
- EDA - Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks [GitHub, 1585 stars]
- snorkel Framework to generate training data [GitHub, 5791 stars]
- dialoguefactory Generate continuous dialogue data in a simulated textual world [GitHub, 5 stars]
Reading Material and Tutorials
- A Survey of Data Augmentation Approaches for NLP [Paper, May 2021] GitHub Link
- ? A Visual Survey of Data Augmentation in NLP [Blog, 2020]
- ? Weak Supervision: A New Programming Paradigm for Machine Learning [Blog, March 2019]
Named Entity Recognition (NER)
- Datasets for Entity Recognition [GitHub, 1497 stars]
- Datasets to train supervised classifiers for Named-Entity Recognition [GitHub, 338 stars]
- Bootleg - Self-Supervision for Named Entity Disambiguation at the Tail [GitHub, 212 stars]
- Few-NERD - Large-scale, fine-grained manually annotated named entity recognition dataset [GitHub, 385 stars]
관계 추출
- tacred-relation TACRED: position-aware attention model for relation extraction [GitHub, 355 stars]
- tacrev TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [GitHub, 69 stars]
- tac-self-attention Relation extraction with position-aware self-attention [GitHub, 64 stars]
- Re-TACRED Re-TACRED: Addressing Shortcomings of the TACRED Dataset [GitHub, 51 stars]
코퍼레이션 해상도
- NeuralCoref 4.0: Coreference Resolution in spaCy with Neural Networks by HuggingFace [GitHub, 2850 stars]
- coref - BERT and SpanBERT for Coreference Resolution [GitHub, 443 stars]
감정 분석
- Reading list for Awesome Sentiment Analysis papers by declare-lab [GitHub, 517 stars]
- Awesome Sentiment Analysis by xiamx [GitHub, 913 stars]
Domain Adaptation
- Neural Adaptation in Natural Language Processing - curated list [GitHub, 261 stars]
Low Resource NLP
- CMU LTI Low Resource NLP Bootcamp 2020 - CMU Language Technologies Institute low resource NLP bootcamp 2020 [GitHub, 597 stars]
Spell Correction / Error Correction
- Gramformer - ramework for detecting, highlighting and correcting grammatical errors [GitHub, 1502 stars]
- NeuSpell - A Neural Spelling Correction Toolkit [GitHub, 665 stars]
- SymSpellPy - Python port of SymSpell [GitHub, 796 stars]
- ? Speller100 by Microsoft [Blog, Feb 2021]
- JamSpell - spell checking library - accurate, fast, multi-language [GitHub, 608 stars]
- pycorrector - spell correction for Chinese [GitHub, 5517 stars]
- contractions - Fixes contractions such as
you're to you are [GitHub, 308 stars] - ? Fine Tuning T5 for Grammar Correction by Sachin Abeywardana [Blog, Nov 2022]
Style Transfer for NLP
- Styleformer - Neural Language Style Transfer framework [GitHub, 475 stars]
- StylePTB - A Compositional Benchmark for Fine-grained Controllable Text Style Transfer [GitHub, 60 stars]
Automata Theory for NLP
- pyahocorasick - Python module implementing Aho-Corasick algorithm for string matching [GitHub, 937 stars]
Obscene words detection
- LDNOOBW - List of Dirty, Naughty, Obscene, and Otherwise Bad Words [GitHub, 2899 stars]
Reddit Analysis
- Subreddit Analyzer - comprehensive Data and Text Mining workflow for submissions and comments from any given public subreddit [GitHub, 489 stars]
Skill Detection
- SkillNER - rule based NLP module to extract job skills from text [GitHub, 153 stars]
Reinforcement Learning for NLP
- nlp-gym - NLPGym - A toolkit to develop RL agents to solve NLP tasks [GitHub, 192 stars]
AutoML / AutoNLP
- AutoNLP - Faster and easier training and deployments of SOTA NLP models [GitHub, 3836 stars]
- TPOT - Python Automated Machine Learning tool [GitHub, 9691 stars]
- Auto-PyTorch - Automatic architecture search and hyperparameter optimization for PyTorch [GitHub, 2359 stars]
- HungaBunga - Brute-Force all sklearn models with all parameters using .fit .predict [GitHub, 710 stars]
- ? AutoML Natural Language - Google's paid AutoML NLP service
- Optuna - hyperparameter optimization framework [GitHub, 10650 stars]
- FLAML - fast and lightweight AutoML library [GitHub, 3871 stars]
- Gradsflow - open-source AutoML & PyTorch Model Training Library [GitHub, 306 stars]
OCR - Optical Character Recognition
- ?️ A framework for designing document processing solutions [Blog, June 2022]
Document AI
- ? Table Transformer + HuggingFace Models
텍스트 생성
- keytotext - a model which will take keywords as inputs and generate sentences as outputs [GitHub, 445 stars]
- ? Controllable Neural Text Generation [Blog, Jan 2021]
- BARTScore Evaluating Generated Text as Text Generation [GitHub, 317 stars]
Title / Headlines Generation
- TitleStylist Learning to Generate Headlines with Controlled Styles [GitHub, 76 stars]
NLP research reproducibility
- ? A Systematic Review of Reproducibility Research in Natural Language Processing [Paper, March 2021]
License CC0
Attributions
자원
- All linked resources belong to original authors
Icons
- Akropolis by parkjisun from the Noun Project
- Book of Ester by Gilad Sotil from the Noun Project
- quill by Juan Pablo Bravo from the Noun Project
- acting by Flatart from the Noun Project
- olympic by supalerk laipawat from the Noun Project
- aristocracy by Eucalyp from the Noun Project
- Horn by Eucalyp from the Noun Project
- temple by Eucalyp from the Noun Project
- constellation by Eucalyp from the Noun Project
- ancient greek round pattern by Olena Panasovska from the Noun Project
- Harp by Vectors Point from the Noun Project
- Atlas by parkjisun from the Noun Project
- Parthenon by Eucalyp from the Noun Project
- papyrus by IconMark from the Noun Project
- papyrus by Smalllike from the Noun Project
- pegasus by Saeful Muslim from the Noun Project
글꼴
The Pandect Series also includes