굉장한 NLP
자연어 처리 전용 자원 목록

이것을 영어, 전통 중국어로 읽으십시오
기부하기 전에 기여 가이드 라인을 읽으십시오. 풀 요청을 제기하여 좋아하는 NLP 리소스를 추가하십시오.
내용물
- 연구 요약 및 트렌드
- 저명한 NLP 연구 실험실
- 튜토리얼
- 도서관
- node.js
- 파이썬
- C ++
- 자바
- 코 틀린
- 스칼라
- 아르 자형
- Clojure
- 루비
- 녹
- NLP ++
- 줄리아
- 서비스
- 주석 도구
- 데이터 세트
- 한국어 NLP
- 아랍어로 NLP
- 중국어로 NLP
- 독일어로 NLP
- 광택의 NLP
- 스페인어로 NLP
- Indic Languages의 NLP
- 태국에서 NLP
- 덴마크어의 NLP
- 베트남인의 NLP
- 네덜란드의 NLP
- 인도네시아의 NLP
- 우르두어의 NLP
- 페르시아어의 NLP
- 우크라이나의 NLP
- 헝가리 인 NLP
- 포르투갈어의 NLP
- 다른 언어
- 크레딧
연구 요약 및 트렌드
- NLP-OverView는 이론, 구현, 응용 프로그램 및 최첨단 결과를 포함하여 NLP에 적용되는 딥 러닝 기술에 대한 최신 개요입니다. 이것은 연구원들에게 큰 NLP 소개입니다.
- NLP 프로그램은 데이터 세트 및 가장 일반적인 NLP 작업을위한 현재 최신 기술을 포함하여 자연어 처리의 진행 상황을 추적합니다.
- NLP의 Imagenet 순간이 도착했습니다
- ACL 2018 하이라이트 :보다 도전적인 설정에서 표현 및 평가 이해
- ACL 2017의 4 가지 딥 러닝 트렌드. 1 부 : 언어 구조 및 단어 임베딩
- ACL 2017의 4 가지 딥 러닝 트렌드. 2 부 : 해석 가능성과 관심
- EMNLP 2017의 하이라이트 : 흥미 진진한 데이터 세트, 클러스터의 반환 등!
- 자연 언어 처리를위한 딥 러닝 (NLP) : 발전 및 트렌드
- 자연 언어 세대의 최첨단 조사
저명한 NLP 연구 실험실
위로 돌아갑니다
- 버클리 NLP 그룹 - 주목할만한 기여에는 오랫동안 죽은 언어를 재구성하는 도구가 포함되어 있으며, 여기에서 언급되었으며 현재 아시아와 태평양에서 말하고있는 637 개의 언어에서 Corpora를 가져 와서 후손을 재현합니다.
- Carnegie Mellon University의 Language Technologies Institute- 주목할만한 프로젝트에는 Avenue Project, Quechua 및 Aymara와 같은 멸종 위기에 처한 언어를위한 구문 중심의 기계 번역 시스템, 이전에는 AQMAR이 아랍어를위한 NLP 도구를 개선하기 위해 AQMAR을 만들었습니다.
- NLP Research Group, Columbia University- 볼트 (언어 번역 시스템을위한 대화식 오류 처리) 및 대화에서 웃음을 특성화하기위한 이름이없는 프로젝트를 제작할 책임이 있습니다.
- John Hopkins University의 센터 또는 언어 및 언어 처리 - 최근 진단 테스트 또는 Parkinson 's Disease를 만들기위한 음성 인식 소프트웨어를 개발 한 뉴스.
- 메릴랜드 대학교의 계산 언어학 및 정보 처리 그룹-주목할만한 기여에는 인간-컴퓨터 협력 또는 단어 별 질문에 대한 답변 및 모델링 개발이 포함됩니다.
- 펜실베이니아 주 펜실베이니아 주 펜실베이니아 주 펜실베이니아 주 펜실베이니아- 펜 트리 뱅크 (Penn TreeBank)를 만드는 데 유명합니다.
- Stanford Nautral Language Processing Group- 세계 최고의 NLP 리서치 랩 중 하나 인 Stanford Corenlp 및 해당 Correference Resolution System을 만들 수 있습니다.
튜토리얼
위로 돌아갑니다
읽기 내용
일반 머신 러닝
- Google의 선임 크리에이티브 엔지니어의 기계 학습 101 엔지니어 및 임원 모두를위한 기계 학습을 설명합니다.
- AI Playbook -A16Z AI Playbook은 프레젠테이션을위한 관리자 또는 콘텐츠에 전달할 수있는 훌륭한 링크입니다.
- Sebastian Ruder의 Ruder의 블로그 Best of NLP Research에 대한 논평
- 더 큰 언어 주석 프로젝트 관리에 대한 데이터 가이드를 라벨링하는 방법
- 자세한 구현을 통해 다양한 NLP 주제를 다루는 블로그 게시물의 정의 컬렉션에 따라
NLP 소개 및 안내서
- 자연어 처리를 이해하고 구현하십시오
- Python의 NLP- Github 노트 컬렉션
- 자연어 처리 : 소개 -XFORDER
- Pytorch를 사용한 NLP 딥 러닝
- 실습 NLTK 튜토리얼 - NLTK 자습서, Jupyter 노트북
- 파이썬을 사용한 자연어 처리 - 자연어 툴킷으로 텍스트 분석 - NLTK를 사용하여 NLP 개념을 소개하는 온라인 및 인쇄물. 이 책의 저자들은 또한 NLTK 도서관을 썼습니다.
- 새로운 언어 모델을 처음부터 훈련 - 포옹 얼굴?
- Super Duper NLP Repo (SDNLPR) : 다양한 NLP 작업 구현을 다루는 Colab 노트 컬렉션.
블로그 및 뉴스 레터
- 딥 러닝, NLP 및 표현
- 삽화가, 엘모 및 공동. (NLP가 전송 학습을 갈라진 방법) 및 일러스트 변압기
- Hal Daumé III의 자연 언어 처리
- Arxiv : 처음부터 자연어 처리 (거의)
- Karpathy는 반복 신경 네트워크의 불합리한 효과입니다
- 머신 러닝 마스터리 : 자연어 처리를위한 딥 러닝
- 시각적 NLP 용지 요약
비디오 및 온라인 코스
위로 돌아갑니다
- 고급 자연 언어 처리 -CS 685, UMASS Amherst CS
- 깊은 자연어 처리 - 옥스포드의 강의 시리즈
- 자연어 가공을위한 딥 러닝 (CS224 -N) -Richard Socher와 Christopher Manning의 스탠포드 코스
- NLP의 신경망 - Carnegie Mellon Language Technology Institute
- Yandex Data School의 Deep NLP 과정, 텍스트 임베딩에서 시퀀스 모델링, 언어 모델 등을 포함한 기계 번역에 이르기까지 중요한 아이디어를 다룹니다.
- FAST.AI 코드 우선 자연 언어 처리에 대한 소개 - 여기에는 전통적인 NLP 주제 (Regex, SVD, Naive Bayes, Tokenization 포함) 및 최근 신경망 접근법 (RNN, SEQ2SEQ, GRUS 및 Transformer 포함)과 바이어스 및 불일치와 같은 긴급 윤리 문제를 해결합니다. 여기에서 Jupyter 노트를 찾으십시오
- 머신 러닝 대학 - 가속화 된 자연어 처리 - 강의는 NLP 및 텍스트 처리로 이동하여 반복 신경 네트워크 및 변압기로 이동합니다. 자료는 여기에서 찾을 수 있습니다.
- IIT Madras의 자연 언어 처리 시리즈는 기본에서 자동 인코더 및 모든 것에 이르기까지 강의 시리즈입니다. 이 과정의 Github 노트북도 여기에서도 제공됩니다.
서적
- 언어 및 언어 처리 - 무료, Dan Jurafsy 교수
- 자연어 처리 - Georgiatech의 Jacob Eisenstein 박사의 무료, NLP 노트
- Pytorch와 NLP -Brian & Delip Rao
- r의 텍스트 마이닝
- 파이썬을 사용한 자연어 처리
- 실용적인 자연어 처리
- Spark NLP를 사용한 자연어 가공
- Stephan Raaijmakers의 자연 언어 가공을위한 딥 러닝
- 실제 자연 언어 처리 - Masato Hagiwara
- 자연 언어 처리, Second Edition -By Hobson Lane 및 Maria Dyshel
도서관
위로 돌아갑니다
C ++ -C ++ 라이브러리 | 위로 돌아갑니다
- INSENT- 패딩이없는 동적 배치를 갖춘 인스턴스 의존적 NLP 모델을 구축하기위한 신경망 라이브러리.
- MIT 정보 추출 툴킷 -C, C ++ 및 Python 도구 명명 된 엔티티 인식 및 관계 추출
- CRF ++ - 순차 데이터 및 기타 자연어 처리 작업을 분할/라벨링하기위한 조건부 랜덤 필드 (CRF)의 오픈 소스 구현.
- CRFSUITE -CRFSUITE는 순차적 데이터 라벨링을위한 조건부 랜덤 필드 (CRF)를 구현 한 것입니다.
- Bllip Parser -Bllip Natural Language Parser (Charniak -Johnson Parser라고도 함)
- Colibri-Core- C ++ 라이브러리, 명령 줄 도구 및 Python 바인딩을위한 N-Grams 및 Skipgrams와 같은 기본 언어 구조를 빠르고 메모리 효율적으로 추출하고 작업하기위한 Python 바인딩.
- UCTO- 다양한 언어에 대한 유니 코드 인식 정규 표현기 기반 토큰 화기. 도구 및 C ++ 라이브러리. Folia 형식을 지원합니다.
- libfolia -Folia 형식의 C ++ 라이브러리
- 개구리 - 메모리 기반 NLP 스위트는 네덜란드 용으로 개발되었습니다 : POS Tagger, Lemmatiser, 의존성 파서, NER, 얕은 파서, 형태 분석기.
- 메타 -Meta : Modern Text Analysis는 C ++ 데이터 과학 툴킷으로 대형 텍스트 데이터를 채굴 할 수 있습니다.
- 메카브 (일본어)
- 모세
- StarSpace- 단어 수준, 단락 수준, 문서 수준, 텍스트 분류를위한 Facebook의 라이브러리
Java -Java NLP 라이브러리 | 위로 돌아갑니다
- 스탠포드 NLP
- Opennlp
- NLP4J
- Java의 Word2vec
- 웹 스케일 공개 정보 추출을 리버브합니다
- OpenRegex 효율적이고 유연한 토큰 기반 정규 표현 언어 및 엔진.
- Cogcompnlp- 일리노이의인지 계산 그룹에서 개발 된 핵심 라이브러리.
- Mallet- 언어 툴킷 용 머신 러닝 - 통계 자연어 처리, 문서 분류, 클러스터링, 주제 모델링, 정보 추출 및 기타 기계 학습 애플리케이션에 대한 패키지.
- RDRPOSTAGGER- 40 개 이상의 언어에 대한 미리 훈련 된 모델과 함께 강력한 POS 태그 툴킷 (Java & Python).
KOTLIN -KOTLIN NLP 라이브러리 | 위로 돌아갑니다
- Lingua Kotlin 및 Java의 언어 탐지 라이브러리, 길고 짧은 텍스트 모두에 적합합니다.
- Kotidgy-Kotlin에서 작성된 색인 기반 텍스트 데이터 생성기
Scala -Scala NLP 라이브러리 | 위로 돌아갑니다
- SAUL- SRL, POS 등과 같은 모듈을 포함하여 NLP 시스템을 개발하기위한 도서관.
- ATR4S- 최첨단 자동 기간 인식 방법이있는 툴킷.
- TM- 정규화 된 다국어 PLSA를 기반으로 한 주제 모델링 구현.
- Word2Vec -Scala -Word2Vec 모델에 대한 Scala 인터페이스; 단어-거리 및 단어 분석과 같은 벡터에 대한 작업이 포함됩니다.
- Epic -Epic은 Scala로 작성된 고성능 통계 파서이며 복잡한 구조화 된 예측 모델을 구축하기위한 프레임 워크입니다.
- Spark NLP -Spark NLP는 분산 환경에서 쉽게 확장되는 기계 학습 파이프 라인에 대한 간단하고 성능 및 정확한 NLP 주석을 제공하는 Apache Spark ML 위에 내장 된 자연어 처리 라이브러리입니다.
R -R NLP 라이브러리 | 위로 돌아갑니다
- Text2Vec- 빠른 벡터화, 주제 모델링, 거리 및 장갑 단어 임베딩 R.
- WordVectors- Word2Vec 및 기타 Word 임베딩 모델 작성 및 탐색을위한 R 패키지
- rmallet -r Java 머신 러닝 툴 Mallet과 인터페이스 할 패키지
- DFR -Browser- 웹 브라우저에서 텍스트의 주제 모델을 탐색하기위한 D3 시각화를 만듭니다.
- dfrtopics -r 텍스트 주제 모델을 탐색하기위한 패키지.
- Sentiment_Classifier- 단어 감각 명확성 및 WordNet Reader를 사용한 감정 분류
- JProcessing- 일본 감정 분류와 일본의 천연 랑우지 처리 라이브러리
- CorporaExplorer- 텍스트 수집의 동적 탐색을위한 R 패키지
- Tidytext- 깔끔한 도구를 사용한 텍스트 마이닝
- Spacyr -R 래퍼에서 스파이 NLP
- CRAN 작업보기 : 자연어 처리
Clojure | 위로 돌아갑니다
- Clojure -Opennlp- Clojure의 자연 언어 처리 (OpenNLP)
- 감염 CLJ- Clojure 및 Clojurescript 용 Rails와 같은 변곡 라이브러리
- Postagga- Clojure 및 Clojurescript의 자연 언어를 구문 분석하는 도서관
루비 | 위로 돌아갑니다
- Kevin Dias는 자연어 처리 (NLP) 루비 라이브러리, 도구 및 소프트웨어 모음
- 루비에서 수행 된 실질적인 자연 언어 처리
녹 | 위로 돌아갑니다
- Whatlang - 트리 그램을 기반으로 한 자연어 인식 라이브러리
- Snips-NLU-RS- 의도 구문 분석을위한 생산 준비 라이브러리
- Rust-Bert- 즉시 사용 가능한 NLP 파이프 라인 및 변압기 기반 모델
NLP ++ -NLP ++ 언어 | 위로 돌아갑니다
- VSCODE 언어 확장 -NLP ++ VSCODE의 언어 확장
- NLP 엔진 - NLP ++ 엔진은 전체 영어 구문 분석기를 포함하여 Linux에서 NLP ++ 코드를 실행합니다.
- VisualText- NLP ++ 언어를위한 홈페이지
- NLP ++ Wiki- NLP ++ 언어를위한 Wiki 항목
줄리아 | 위로 돌아갑니다
- CORPUSLOADER- 다양한 NLP Corpora를위한 다양한 로더
- 언어 - 인간 언어로 작업하기위한 패키지
- Textanalysis -Julia 패키지 텍스트 분석
- TextModels- 자연어 처리를위한 신경망 기반 모델
- WordTokenizers- 자연어 처리 및 기타 관련 작업을위한 고성능 토큰 화제
- Word2Vec -Julia 인터페이스 Word2Vec
서비스
NER, 주제 태그 등과 같은 높은 레벨 기능을 갖는 API로서 NLP | 위로 돌아갑니다
- WIT -AAI- 앱 및 장치 용 자연어 인터페이스
- IBM Watson의 자연어 이해 -API 및 Github 데모
- Amazon Pollehend -NLP 및 ML Suite는 NER, 태깅 및 감정 분석과 같은 가장 일반적인 작업을 다룹니다.
- Google Cloud Natural Language API -Syntax Analysis, NER, 감정 분석 및 ATLEST 9 언어로 된 컨텐츠 태그에는 영어 및 중국어 (단순화 및 기존)가 포함됩니다.
- ParallelDOTS- 감정 분석에서 의도 분석에 이르기까지 높은 수준의 텍스트 분석 API 서비스
- Microsoft Cognitive Service
- Textrazor
- 장미 매듭
- Textalytic- 정서 분석, 엔티티 추출, POS 태그, 단어 주파수, 주제 모델링, 워드 클라우드 등 브라우저의 자연 언어 처리
- NLP Cloud- 스파이 NLP 모델 (사용자 정의 및 미리 훈련 된 모델)은 명명 된 엔티티 인식 (NER), POS 태깅 등을 위해 편안한 API를 통해 제공되었습니다.
- CloudMersive- 음성 태그, 텍스트 레프 라싱, 언어 번역/탐지 및 문장 파싱과 같은 동작을 수행하는 통합 및 무료 NLP API
주석 도구
- 게이트 - 일반 아키텍처 및 텍스트 엔지니어링은 15 세 이상, 무료 및 오픈 소스입니다.
- Anafora는 무료 및 오픈 소스, 웹 기반 원시 텍스트 주석 도구입니다.
- Brat -Brat Rapid Annotation Tool은 협업 텍스트 주석을위한 온라인 환경입니다.
- Doccano -Doccano는 무료이며 오픈 소스이며 텍스트 분류, 시퀀스 라벨링 및 시퀀스에 대한 주석 기능을 제공합니다.
- Inception- 지능적인 지원 및 지식 관리를 제공하는 시맨틱 주석 플랫폼
- 데이터 세트를 찾고, 작성, 유지 관리 및 공유 할 수있는 Tagtog, Team -First 웹 도구 - 비용 $
- Prodigy는 Active Learning으로 구동되는 주석 도구입니다.
- LIGHTAG- 팀을위한 호스팅 및 관리 텍스트 주석 도구, 비용 $
- RSTWEB- 담론 나무 주석을위한 오픈 소스 로컬 또는 온라인 도구
- GITDOX- XML 데이터 및 협업 스프레드 시트 그리드에 대한 GitHub 버전 제어 및 유효성 검사 기능이있는 오픈 소스 서버 주석 도구
- 레이블 스튜디오 - 팀을위한 호스팅 및 관리 텍스트 주석 도구, 프리미엄 기반, 비용 $
- DataSaur는 개인 또는 팀을위한 다양한 NLP 작업, 프리미엄 기반을 지원합니다.
- KONFUZIO- 팀 우선 호스팅 및 온 프렘 텍스트, 이미지 및 PDF 주석 도구, 활성 학습, 프리미엄 기반, 비용 $
- UBIAI- 대부분의 포괄적 인 자동 공개 기능이있는 팀을위한 사용하기 쉬운 텍스트 주석 도구. 송장 라벨링에 대한 NER, 관계 및 문서 분류 및 OCR 주석, 비용 $
- Shoonya -Shoonya는 다양한 조직 및 작업 영역 수준 관리 시스템을 갖춘 무료 및 오픈 소스 데이터 주석 플랫폼입니다. Shoonya는 데이터가 비수적이며 팀에서 사용하여 다양한 수준의 검증 단계가있는 데이터에 주석을 달 수 있습니다.
- 주석 연구소-텍스트 주석 및 DL 모델 교육/튜닝을위한 무료 엔드 투 엔드 노 코드 플랫폼. 명명 된 엔티티 인식, 분류, 관계 추출 및 어설 션 상태에 대한 상자 외 지원 Spark NLP 모델. 사용자, 팀, 프로젝트, 문서에 대한 무제한 지원. Foss가 아닙니다.
- Flat-Flat는 언어 주석을위한 풍부한 XML 기반 형식 인 Folia 형식을 기반으로하는 웹 기반 언어 주석 환경입니다. 무료 및 오픈 소스.
기법
텍스트 임베딩
단어 임베딩
문장 및 언어 모델 기반 단어 임베딩
위로 돌아갑니다
- Elmo- 심층적 인 문맥 화 된 단어 표현 -Pytorch emptmentation -tf 구현
- Ulmfit- 유니버설 언어 모델 Jeremy Howard와 Sebastian Ruder의 텍스트 분류를위한 미세 조정
- Infersent- Facebook의 자연 언어 추론 데이터에서 보편적 문장 표현의 감독 학습
- Cove- 번역에서 배운 : 상황에 맞는 단어 벡터
- 파 그라프 벡터 - 문장과 문서의 분산 된 표현에서. Gensim의 Doc2Vec 튜토리얼을 참조하십시오
- Sense2Vec- 단어 sense 명확성에
- 사고 벡터 - 단어 표현 방법을 건너 뛰십시오
- 적응 형 스킵 그램 - 적응 특성을 가진 유사한 접근법
- 시퀀스 학습 시퀀스 - 기계 번역을위한 단어 벡터
질문 답변 및 지식 추출
위로 돌아갑니다
- DRQA- Wikipedia 데이터에 대한 Facebook 연구에 의한 공개 도메인 질문 답변 작업
- Document-QA- Allenai의 간단하고 효과적인 다중 파 그라그래프 독해력
- 템플릿이없는 템플릿 기반 정보 추출
- Privee : 웹 개인 정보 보호 정책을 자동으로 분석하기위한 아키텍처
데이터 세트
위로 돌아갑니다
- NLP-Datasets 훌륭한 NLP 데이터 세트 모음
- Gensim -Data- 사전 상환 된 NLP 모델 및 NLP Corpora의 데이터 저장소.
다국어 NLP 프레임 워크
위로 돌아갑니다
- UDPipe는 Universal TreeBank 및 기타 Conll-U 파일을 토큰 화, 태깅, 레마 화 및 구문 분석하기위한 훈련 가능한 파이프 라인입니다. 주로 C ++로 작성된 다국어 NLP 처리를위한 빠르고 안정적인 솔루션을 제공합니다.
- NLP-CUBE : 자연어 처리 파이프 라인-문장 분할, 토큰 화, 레마 화, 부품 태그 및 종속성 구문 분석. Dynet 2.0과 함께 파이썬으로 작성된 새로운 플랫폼. 독립형 (CLI/Python 바인딩) 및 서버 기능 (REST API)을 제공합니다.
- URALICNLP는 Sami 언어, Mordvin Languages, Mari Languages, Komi Languages 등과 같은 많은 멸종 위기에 처한 Uralic 언어에 대한 NLP 라이브러리입니다. 또한 스웨덴어 및 아랍어와 같은 비 또는 불법 언어와 함께 핀란드와 같은 일부 비 엔진 언어가 지원됩니다. uralicnlp는 형태 학적 분석, 생성, 레마 화 및 명확성을 수행 할 수 있습니다.
한국어 NLP
위로 돌아갑니다
도서관
- KONLPY- 한국 자연 언어 처리를위한 파이썬 패키지.
- Mecab (한국) - 한국 NLP의 C ++ 라이브러리
- Koalanlp- 한국 자연 언어 처리를위한 스칼라 도서관.
- KONLP -R 한국 자연 언어 처리를위한 패키지
블로그 및 튜토리얼
- Dsindex의 블로그
- Kangwon University의 NLP 코스
데이터 세트
- KAIST CORPUS- 한국 고급 과학 기술 연구소의 코퍼스.
- 한국의 Naver 감정 영화 코퍼스
- Chosun Ilbo Archive- 한국의 주요 신문 중 하나 인 Chosun Ilbo의 한국의 데이터 세트.
- 채팅 데이터 - 한국의 챗봇 데이터
- 청원 - 블루 하우스 국립 청원 사이트에서 만료 된 청원 데이터를 수집합니다.
- 한국 병렬 코퍼라 - 신경 기계 번역 (NMT) 데이터 세트 , 프랑스에서 한국에서 한국에서 영어로
- Korquad- Wiki HTML 소스가있는 한국 분대 데이터 세트. 멋진 NLP에 추가 할 때 V1.0 및 v2.1을 모두 언급합니다.
아랍어로 NLP
위로 돌아갑니다
도서관
- 고아 라비 - 아랍어 텍스트 처리를위한 GO 패키지
- JSASTEM- 아랍어 스템 밍을위한 JavaScript
- Pyarabic- 아랍어 용 파이썬 라이브러리
- rftokenizer- 아랍어, 히브리어 및 콥트 용 훈련 가능한 파이썬 세그먼트
데이터 세트
- Multidomain 데이터 세트 - 아랍어 감정 분석을위한 최대의 다중 도메인 리소스
- labr- 대형 아랍어 도서 검토 데이터 세트
- 아랍어 스톱워드 - 다양한 자원의 아랍어 스톱워드 목록
중국어로 NLP
위로 돌아갑니다
도서관
- Jieba- 중국어로 된 단어 세분화 유틸리티 용 파이썬 패키지
- Snownlp- 중국 NLP 용 파이썬 패키지
- FUDANNLP- 중국어 텍스트 처리를위한 Java 라이브러리
- HANLP- 다국어 NLP 라이브러리
시집
- Funnlp- 주로 중국어를위한 NLP 도구 및 리소스 수집
독일어로 NLP
- German-NLP- 개방형 액세스/오픈 소스/상용 자원의 선별 된 목록 및 독일어에 중점을두고 개발 된 도구
광택의 NLP
- Polish -NLP- 폴란드어의 NLP (Natural Language Processing) 전용 자원 목록. 모델, 도구, 데이터 세트.
스페인어로 NLP
위로 돌아갑니다
도서관
- SPANLP- 파이썬 라이브러리, 검열 및 깨끗한 욕설, 저속성, 증오, 인종 차별, 외국인 혐오증 및 괴롭힘을 스페인어로 작성했습니다. 여기에는 21 개의 스페인어를 사용하는 국가의 데이터가 포함되어 있습니다.
데이터
- 컬럼비아 정치 연설
- 코펜하겐 트리 뱅크
- Word2Vec 임베드가있는 스페인어 10 억 단어 코퍼스
- 스페인어 미등성 코퍼레이션의 편집
단어와 문장 임베딩
- 다른 방법과 다른 Corpora로 계산 된 스페인어 단어 임베드
- FastText를 사용하여 대형 코포라 및 다양한 크기로 계산 된 스페인어 단어 임베딩
- Sent2Vec을 사용하여 대구에서 계산 된 스페인 문장 임베딩
- 베토 - 스페인어 버트
Indic Languages의 NLP
위로 돌아갑니다
데이터, Corpora 및 TreeBanks
- 힌디어 의존성 트리 뱅크-힌디어와 우르두어를위한 다중 대표 다층 트리 뱅크
- 힌디어의 보편적 의존성 트리 뱅크
- 병렬 범용 종속성 힌디어의 트리 뱅크 - 위에서 언급 한 트리 뱅크의 작은 부분.
- ISI Fire Stopwords 목록 (힌디어 및 방글라)
- Peter Graham의 Stopwords 목록
- NLTK 코퍼스 60K 단어 POS 태그, 방글라, 힌디어, 마라 타어, 텔루구 어
- 힌디어 영화 검토 데이터 세트 ~ 1k 샘플, 3 개의 극성 클래스
- BBC 뉴스 힌디어 데이터 세트 4.3k 샘플, 14 개의 클래스
- IIT Patna Hindi ABSA 데이터 세트 5.4K 샘플, 12 도메인, 4K 종횡면, 측면 및 문장 레벨 극성 4 등급
- Bangla absa 5.5k 샘플, 2 개의 도메인, 10 종자 용어
- IIT Patna 영화 검토 감정 데이터 세트 2K 샘플, 3 개의 극성 레이블
로그인/액세스가 필요한 Corpora/DataSets는 이메일을 통해 얻을 수 있습니다.
- 2015 년 트위터 및 페이스 북은 힌디어, 벵골어, 타밀어, 텔루구 어의 감정 샘플을 표시합니다.
- IIT Bombay NLP 리소스 Sentiwordnet, 영화 및 관광 병렬 라벨링 된 Corpora, Polarity 라벨링 Sense 주석 코퍼스, Marathi Polarity 라벨이 붙은 코퍼스.
- TDIL-IC는 많은 유용한 리소스를 집계하고 다른 게이트 데이터 세트에 액세스 할 수 있습니다.
언어 모델과 단어 임베딩
- Hindi2Vec 및 Nlp-for-Hindi Ulmfit Style Languge 모델
- IIT Patna 이중 언어 단어 임베딩 hi-en
- 일반 크롤링에 대한 교육을받은 많은 언어로 된 FastText Word Embeddings
- 힌디어와 벵골어 Word2vec
- 힌디어와 우르두어 엘모 모델
- Sanskrit Albert는 Sanskrit Wikipedia와 Oscar Corpus를 훈련했습니다
라이브러리 및 툴링
- 힌디어 및 우르두어를위한 멀티 태스킹 깊은 형태 분석기 깊은 네트워크 기반 형태 학적 파서
- Anoop Kunchukuttan 18 언어, 토큰 화에서 번역에 이르기까지 다양한 기능
- Sivareddy의 의존성 파서 의존성 파서 및 칸나다어, 힌디어 및 텔루구 어의 POS Tagger. Python3 포트
- INLTK- Pytorch/Fastai 위에 구축 된 Indic Languages (인도 아대륙 언어) 용 자연어 툴킷으로, 일반적인 NLP 작업에 대한 상자 지원을 제공하는 것을 목표로합니다.
태국에서 NLP
위로 돌아갑니다
도서관
- Pythainlp -Python 패키지의 Thai NLP
- JTCC- Java의 캐릭터 클러스터 라이브러리
- CUTKUM- 텐서 플로에서 딥 러닝을 통한 단어 세분화
- 태국어 툴킷 - 2002 년에 포함 된 데이터 세트가 포함 된 Wirote Aroonmanakun의 종이 기반
- Synthai- 단어 세분화 및 POSTHON에서 딥 러닝을 사용한 POS 태깅
데이터
- 최고급 - 단어 세분화가있는 5 백만 단어가있는 텍스트 코퍼스
- 총리 29- 현재 태국 총리의 연설이 포함 된 데이터 세트
덴마크어의 NLP
- 덴마크어에 대한 지명 된 엔티티 인식
- DANLP- 덴마크의 NLP 리소스
- Awesome Danish- 덴마크 언어 기술을위한 멋진 리소스 목록
베트남인의 NLP
도서관
- Underthesea- 베트남 NLP 툴킷
- vn.vitk- 베트남어 텍스트 처리 툴킷
- vncorenlp- 베트남 자연어 처리 툴킷
- Phobert- 베트남을위한 미리 훈련 된 언어 모델
- PYVI- 파이썬 베트남 핵심 NLP 툴킷
데이터
- 베트남 트리 뱅크 - 선거구 구문 분석 작업에 대한 10,000 문장
- Bktreebank- 베트남 의존성 트리 뱅크
- UD_VIETNAMES- 베트남 보편적 의존성 트리 뱅크
- VIVOS- Ailab의 15 시간의 녹음 연설로 구성된 무료 베트남 연설 코퍼스
- vntqcorpus (big) .txt- 뉴스에서 175 만 문장
- vitext2SQL- 베트남어 텍스트-스크린 시맨틱 파싱을위한 데이터 세트 (EMNLP-2020 결과)
- EVB 코퍼스 -15 개의 이중 언어 서적에서 20,000,000 단어 (2 천만), 100 개의 평행 한 영어-베트남 / 베트남-영어 텍스트, 250 개의 병렬 법 및 조례 텍스트, 5,000 개의 뉴스 기사 및 2,000 개의 영화 자막.
네덜란드의 NLP
위로 돌아갑니다
- Python -Frog- 네덜란드의 NLP 스위트 인 개구리에 대한 파이썬 바인딩. (POS 태깅, 레마 화, 의존성 구문 분석, NER)
- Simplenlg_NL- 영어와 프랑스어에 대한 단순한 구현을 기반으로 네덜란드의 자연 언어 생성에 사용되는 네덜란드 표면 Realiser.
- ALPINO- 네덜란드의 의존성 파서 (POS 태그 및 림마테이션도 마찬가지).
- Kaldi NL- 칼디를 기반으로 한 네덜란드어 스피치 인식 모델.
- 스파이 - 네덜란드 모델 사용 가능. -Python 및 Cython이있는 산업 강도 NLP.
인도네시아의 NLP
데이터 세트
- ILPS에서 Kompas 및 Tempo 컬렉션
- POS 태깅 용 PANL10N : 39K 문장 및 900K 단어 토큰
- POS 태깅 용 IDN :이 코퍼스에는 10K 문장과 250k 단어 토큰이 포함되어 있습니다.
- 인도네시아 트리 뱅크와 보편적 의존성-인도네시아
- 텍스트 요약 및 분류를위한 인도식
- Wordnet -Bahasa- 크고 무료, 의미 론적 사전
- Indobenchmark Indonlu는 미리 훈련 된 언어 모델 (Indobert), Fasttext Model, Indo4b Corpus 및 여러 NLU 벤치 마크 데이터 세트가 포함됩니다.
라이브러리 및 임베딩
- 자연어 툴킷 바하사
- 인도네시아 단어 임베딩
- Wikipedia에서 훈련 된 미리 인도네시아의 빠른 텍스트 텍스트 임베딩
- Indobenchmark Indonlu는 사전 상인 언어 모델 (Indobert), Fasttext Model, Indo4b Corpus 및 여러 NLU 벤치 마크 데이터 세트가 포함됩니다.
우르두어의 NLP
데이터 세트
- POS, NER 및 NLP 작업 용 Urdu 데이터 세트 모음
도서관
페르시아어의 NLP
위로 돌아갑니다
도서관
- HAZM -PERSIAN NLP 툴킷.
- Parsivar : 페르시아어를위한 언어 처리 툴킷
- PERKE : Perke는 페르시아어를위한 Python Keyphrase 추출 패키지입니다. 새로운 모델을 개발하기 위해 각 구성 요소를 쉽게 수정하거나 확장 할 수있는 엔드 투 엔드 키 프레이즈 추출 파이프 라인을 제공합니다.
- PERSTEM : 페르시아어 스티머, 형태 분석기, 음역자 및 부분적인 부품 태그거
- Parsianalyzer : Elasticsearch를위한 페르시아 분석기
- Virastar : 페르시아어 텍스트 청소!
데이터 세트
- Bijankhan Corpus : Bijankhan Corpus는 페르시아 (FARSI) 언어에 대한 자연 언어 처리 연구에 적합한 태그 된 코퍼스입니다. 이 컬렉션은 Daily News 및 일반적인 텍스트 형태로 수집되었습니다. 이 컬렉션에서 모든 문서는 정치, 문화 등과 같은 다른 주제로 분류됩니다. 완전히 4300 개의 다른 주제가 있습니다. Bijankhan 컬렉션에는 40 개의 페르시아 POS 태그가 포함 된 태그 세트가있는 수동으로 약 260 만 개의 수동 태그 단어가 포함되어 있습니다.
- Uppsala Persian Corpus (UPC) : Uppsala Persian Corpus (UPC)는 자유롭고 자유롭게 이용할 수있는 페르시아어 코퍼스입니다. 코퍼스는 2,704,028 개의 토큰을 포함하는 추가 문장 세분화 및 일관된 토큰 화가있는 비잔크 칸 코퍼스의 수정 된 버전으로 31 개의 부품 태그로 주석을 달았습니다. 부품 연설 태그에는이 표에 설명이 표시됩니다.
- 대규모 구어체 페르시아어 : 대규모 구어체 페르시아 데이터 세트 (LSCP)는 포괄적 인 문제로서 멀티 태스킹 비공식 페르시아어 이해에 중점을 둔 소외 분류법에서 계층 적으로 구성되어 있습니다. LSCP includes 120M sentences from 27M casual Persian tweets with its dependency relations in syntactic annotation, Part-of-speech tags, sentiment polarity and automatic translation of original Persian sentences in English (EN), German (DE), Czech (CS), Italian (IT) and Hindi (HI) spoken languages. Learn more about this project at LSCP webpage.
- ArmanPersoNERCorpus: The dataset includes 250,015 tokens and 7,682 Persian sentences in total. It is available in 3 folds to be used in turn as training and test sets. Each file contains one token, along with its manually annotated named-entity tag, per line. Each sentence is separated with a newline. The NER tags are in IOB format.
- FarsiYar PersianNER: The dataset includes about 25,000,000 tokens and about 1,000,000 Persian sentences in total based on Persian Wikipedia Corpus. The NER tags are in IOB format. More than 1000 volunteers contributed tag improvements to this dataset via web panel or android app. They release updated tags every two weeks.
- PERLEX: The first Persian dataset for relation extraction, which is an expert translated version of the “Semeval-2010-Task-8” dataset. Link to the relevant publication.
- Persian Syntactic Dependency Treebank: This treebank is supplied for free noncommercial use. For commercial uses feel free to contact us. The number of annotated sentences is 29,982 sentences including samples from almost all verbs of the Persian valency lexicon.
- Uppsala Persian Dependency Treebank (UPDT): Dependency-based syntactically annotated corpus.
- Hamshahri: Hamshahri collection is a standard reliable Persian text collection that was used at Cross Language Evaluation Forum (CLEF) during years 2008 and 2009 for evaluation of Persian information retrieval systems.
NLP in Ukrainian
위로 돌아갑니다
- awesome-ukrainian-nlp - a curated list of Ukrainian NLP datasets, models, etc.
- UkrainianLT - another curated list with a focus on machine translation and speech processing
NLP in Hungarian
위로 돌아갑니다
- awesome-hungarian-nlp: A curated list of free resources dedicated to Hungarian Natural Language Processing.
NLP in Portuguese
위로 돌아갑니다
- Portuguese-nlp - a List of resources and tools developed with focus on Portuguese.
Other Languages
- Russian: pymorphy2 - a good pos-tagger for Russian
- Asian Languages: Thai, Lao, Chinese, Japanese, and Korean ICU Tokenizer implementation in ElasticSearch
- Ancient Languages: CLTK: The Classical Language Toolkit is a Python library and collection of texts for doing NLP in ancient languages
- Hebrew: NLPH_Resources - A collection of papers, corpora and linguistic resources for NLP in Hebrew
위로 돌아갑니다
Credits for initial curators and sources
특허
License - CC0