중국의 NLP (자연어 처리)를위한 선별 된 리소스 목록
중국 자연 언어 처리 관련 정보
사진은 Fudan University의 Qiu Xipeng 교수의 사진입니다.

Tsinghua의 Thulac Chinese 어휘 분석 툴킷 (C ++/Java/Python)
중국 과학 아카데미 (Java)의 Nlpir
Harbin Institute of Technology (C ++)의 LTP Language Technology 플랫폼 Pylyp LTP 파이썬 캡슐화
Fudannlp by Fudan (Java)
Baidulac은 Word Segmentation, Part-of-Steech 태그 및 명명 된 엔티티 인식을 포함하여 중국어를위한 Baidu의 오픈 소스 어휘 분석 도구입니다.
Hanlp (Java)
FASTNLP (PYTHON) 가벼운 NLP 프로세싱 제품군.
중국어 텍스트를 처리하기위한 Snownlp (Python) 파이썬 라이브러리
Yayanlp (Python) 중국 자연 언어 처리 패키지 순수 파이썬으로 작성된 "Yaya Language"
Xiao Ming NLP (Python) 가벼운 중국 자연 언어 처리 도구
DeepNLP (Python) 딥 러닝 NLP 파이프 라인은 사전 상환 된 중국 모델로 텐서 플로에서 구현되었습니다.
Chinese_nlp (C ++ & Python) 중국 자연어 처리 도구 및 예
Pytorch 및 Torchtext를 기반으로 한 Lightnlp (Python) 자연 언어 처리 딥 러닝 프레임 워크
중국어 나누기 (Python) 중국어 텍스트 코퍼스 중국어 문자 주석 도구를위한 주석
Poplar (TypeScript) 자연 언어 처리를위한 웹 기반 주석 도구 (NLP)
Jiagu (Python) Jiagu는 BILSTM 및 기타 모델을 기반으로하며 대규모 코퍼스에서 교육을받습니다. 중국어 단어 세분화, 부식 주석, 이름 지정 엔티티 인식, 감정 분석, 지식 그래프 관계 추출, 키워드 추출, 텍스트 요약 및 새로운 단어 발견과 같은 일반적인 자연어 처리 기능을 제공합니다.
SmoothNLP (Python & Java) 해석 가능한 NLP 기술에 중점을 둡니다
Foolnltk (Python & Java) 중국 자연 언어 툴킷
Stanford (Java)의 Corenlp 핵심 NLP 도구의 Java 제품군.
Stanza by Stanford (Python) 많은 인간 언어를위한 Python NLP 라이브러리
NLTK (Python) 자연어 툴킷
스파이 (Python) 온라인 코스를 통한 산업 강도 자연 언어 처리
스파크 전후의 텍스트 (Python) NLP
OpenNLP (Java) 자연어 텍스트 처리를위한 기계 학습 기반 툴킷.
Gensim (Python) Gensim은 대기업과의 주제 모델링, 문서 색인화 및 유사성 검색을위한 파이썬 라이브러리입니다.
KASHGARI- 단순하고 강력한 NLP 프레임 워크는 지명 된 엔티티 인식 (NER), POS (Part-of Steech Tagging) 및 텍스트 분류 작업을 위해 5 분 안에 최첨단 모델을 구축합니다. Bert 및 Word2Vec 포함 포함.
Jieba Chinese Word 분사 (Python 및 많은 수의 다른 프로그래밍 언어로 파생)는 최고의 Python Chinese Word Partiple 구성 요소입니다.
북경 대학교 중국어 단어 세분화 도구 (Python)는 간단하고 사용하기 쉬운 매우 정확한 중국어 단어 세분화 도구입니다. 기존 오픈 소스 도구와 비교하여 워드 세분화의 정확도를 크게 향상시킵니다.
KCWS 딥 러닝 중국어 단어 분사 (Python) BILSTM+CRF 및 IDCNN+CRF
ID-CNN-CWS (Python)는 중국어 단어 세분화에 대한 확장 된 컨볼 루션을 반복했습니다
천재 중국어 단어 분사 (Python) 천재는 CRF (조건부 랜덤 필드) 조건부 랜덤 필드 알고리즘을 사용하는 오픈 소스 파이썬 중국어 단어 분사 구성 요소입니다.
로소 중국 분사 (파이썬)
Yaha "chinese"중국 분사 (파이썬)
CHINESEWORDSEMENTATION (Python) 코퍼스가없는 중국어 단어 세분화 알고리즘
효율적인 텍스트 분할; 영어, 중국어, 일본어 및 기타를 지원합니다.
ANSJ 중국어 단어 분사 (Java) Java N-Gram+CRF+HMM을 기반으로 한 중국어 단어 분사 구현
Mitie (C ++) 라이브러리 및 정보 추출 도구
입력 문자열에 대한 수정 가능한 언어 규칙을 표현, 테스트 및 평가하기위한 오리클 링 (Haskell) 언어, 엔진 및 툴링.
IEPY (Python) IEPY는 관계 추출에 중점을 둔 정보 추출을위한 오픈 소스 도구입니다.
정보 추출에 중점을 둔 교육 데이터 생성 및 관리 시스템 스노클링
텐서 플로에서 LSTM으로 구현 된 신경 관계 추출
중국어 명명 된 엔티티 인식을위한 신경망 모델
Bert-chinese-ner는 미리 훈련 된 언어 모델 Bert를 사용하여 중국 NER을 수행합니다.
IDCNN/BILSTM+CRF를 사용한 ENTITY 인식 및 BIGRU+2ATT 중국 엔터티 인식 및 관계 추출과의 관계 추출을 지명 한 Information-Extraction-Chinese Chinese
Baidu가 제작 한 산업 주제 모델링을위한 툴킷
텍스트 분류 모든 종류의 텍스트 Classificaiton 모델 등이 딥 러닝을 사용합니다. Zhihu Q & A를 테스트 데이터로 사용하십시오.
복잡한 추출 조건부 사건, 인과 이벤트, 후속 사건, 역전 사건 및 기타 이벤트 추출을 포함한 중국 화합물 사건의 개념과 명백한 패턴.
TexTrank4Zh는 중국어 텍스트에서 키워드와 초록을 자동으로 추출합니다
Rasa Nlu (Python) 자연 언어를 구조화 된 데이터로 바꾸고 Rasa Nlu Chi의 중국어 포크
대화 소프트웨어 용 RASA 코어 (Python) 기계 학습 기반 대화 엔진
Chatstack 중국 NLU 시스템 구축을위한 전체 파이프 라인 UI
Snips NLU (Python) Snips NLU는 자연 언어로 작성된 문장을 구문 분석하고 구조화 된 정보를 추출 할 수있는 파이썬 라이브러리입니다.
DeepPavlov (Python) 엔드 투 엔드 대화 시스템 및 훈련 챗봇을 구축하기위한 오픈 소스 라이브러리.
Chatscript 자연 언어 도구/대화 관리자, 규칙 기반 챗봇 엔진.
Chatterbot (Python) Chatterbot은 채팅 봇을 만들기위한 머신 러닝, 대화 상자 엔진입니다.
벡터 매칭을 기반으로하는 챗봇 (Python) 상황 적 챗봇
Tipask (PHP)는 Laravel Framework를 기반으로 개발 한 오픈 소스 PHP 질문 및 답변 시스템이며, 강한 부하 용량 및 안정성으로 쉽게 확장 할 수 있습니다.
QuestionANSWERINGSYSTEM (JAVA) Java-Implemented Human-Computer 질문 및 답변 시스템은 질문을 자동으로 분석하고 후보 답변을 제공 할 수 있습니다.
다중 검색 엔진 및 딥 러닝 기술을 기반으로 한 QA-SNAKE (Python) 자동 Q & A
Tensorflow (Python)를 사용하여 구현 된 시퀀스에 대한 챗봇 모델
딥 러닝 알고리즘에 의해 구현 된 중국어 독해 질문 및 답변 시스템 (Python)
Baidu의 AnyQ에는 주로 FAQ 컬렉션을위한 질문 및 답변 시스템 프레임 워크와 텍스트 의미 론적 일치 도구 Simnet이 포함됩니다.
Dureader 중국 독해 이해 기준 코드 (Python)
SmartQQ (Python)를 기반으로 한 자동 로봇 프레임 워크
Qasystemonmedicalkg (Python) 의료 분야에 대한 질병 중심 지식 그래프를 사용 하고이 지식 그래프를 사용하여 자동 Q & A 및 분석 서비스를 완료합니다.
중국 채팅을위한 gpt2-chitchat (Python) GPT2 모델
CDIAL-GPT (Python)는 대규모 중국 대화 데이터 세트를 제공 하고이 데이터 세트에서 중국 대화 미리 훈련 된 모델 (중국 GPT 모델)을 제공합니다.
OpenKG.CN
중국어 지식 맵 스키마를 엽니 다
대규모 중국 컨셉 맵 CN-ProBase 공식 계정 소개
1 억 4 천만 명의 중국 지식 그래프의 대규모 오픈 소스 다운로드
농업 지식 그래프 정보 검색, 기업 인식, 관계 추출, 분류 트리 구성, 농업 분야의 데이터 마이닝
CLDC 중국어 자원 동맹
중국 위키 백과 덤프
다른 코퍼스 및 다른 모델 (예 : Bert 및 GPT)을 기반으로 한 중국 미리 훈련 된 모델 프레임 워크는 다른 코퍼스, 인코더 및 대상 작업 (RUC 및 Tencent)에 대한 미리 훈련 된 모델을 지원합니다.
OpenClap Multi-Domain 오픈 소스 중국 미리 훈련 된 언어 모델 저장소 (Tsinghua에서)
1998 People 's Daily 부분 주석 도서관 @BaidUpan
Sogou 20061127 News Corpus (카테고리 포함) @ Baidu Pan
Udchinese (훈련 스파이 POS)
중국어 Word2Vec 모델
수백 개의 미리 훈련 된 중국어 단어 벡터
중국어 단어와 문구를위한 Tencent AI 실험실을 포함
전체 단어 마스킹이있는 중국 사전 훈련 버트
중국 GPT2 교육 코드는시, 뉴스, 소설 또는 일반 언어 모델을 쓸 수 있습니다.
중국어 이해 평가 벤치 마크 중국어는 대표적인 데이터 세트, 사전 마크 (사전 마크) 모델, 코퍼스 및 순위가 포함됩니다.
중국 신화 사전 데이터베이스에는 관용구, 관용구, 단어 및 중국어가 포함됩니다.
동의어 : 중국 동의어 툴킷은 Wikipedia Chinese 및 Word2Vec 교육의 동의어를 기반으로하며 Python 패키지 파일로 캡슐화됩니다.
Chinese_Conversation_Sentiment 중국 감정 데이터 세트는 감정 분석에 유용 할 수 있습니다.
중국 비상 코퍼스
DGK_LOST_CONV 중국 대화 코퍼스
챗봇을 훈련하기위한 데이터 세트
중국 답변의 바구아 버전
중국 공개 채팅 코퍼스
China Stock Market 발표 정보 Python Scripts (나열된 회사 및 규제 기관)를 통해 Juchao Network의 서버에서 중국 주식 시장 (SZ, SH)의 발표를 얻기 위해 크롤링
Tushare Financial Data Interface Tushare는 무료 및 오픈 소스 Python Financial Data Interface 패키지입니다.
재무 텍스트 데이터 세트 SmoothNLP 금융 텍스트 데이터 세트 (공개) NLP 연구를위한 공개 재무 데이터 세트
보험 산업 코퍼스 [52NLP 블로그 소개] 기계 학습 작업을위한 보험 영역의 OpenData
고대 중국시와 가사의 가장 완전한 데이터베이스. Tang and Song 왕조의 약 14,000 명의 시인들, 거의 55,000 개의 Tang시 및 260,000 개의 노래시. 노래 왕조에는 1,564 명의 시인이 있었고 21,050 개의 시가있었습니다.
Dureader 중국어 독해 데이터
중국어 코퍼스의 작은 데이터는 중국인이라는 이름의 단체 인식, 중국 관계 인식, 중국 독해 이해 등과 같은 일부 작은 데이터가 포함됩니다.
중국어-리터 리터 인 -ner-re-dataset 중국 문학 텍스트를위한 담론 수준의 기업 인식 및 관계 추출 데이터 세트
ChinesetextualInference 중국어 텍스트 추론 프로젝트, 880,000 개의 텍스트 함유 중국어 함유 데이터 세트의 번역 및 구성 및 딥 러닝을 기반으로 한 텍스트 함유 판단 모델.
대규모 중국 자연 언어 처리 코퍼스 위키 백과 (Wiki2019ZH), News Corpus (News2016ZH), Encyclopedia Q & A (Baike2018QA)
중국 이름 코퍼스 중국 이름, 성, 이름, 이름, 이름, 일본어 이름, 번역 이름, 영어 이름.
회사 이름, 조직 이름 코퍼스 회사 약어, 약어, 브랜드 단어, 엔터프라이즈 이름.
중국어 민감한 단어 데이터베이스에서 민감한 단어 필터링의 여러 구현 + 특정 1W 단어 민감한 단어 데이터베이스
중국 약어 부정적인 전형을 포함하여 중국어 약어의 코퍼스.
중국 데이터 전처리 재료 중국어 단어 분사 사전 및 중국어 중지 단어
한 중국 사전
Sentibridge : 중국 단체의 감정 지식 기반은 사람들이 뉴스, 관광 및 케이터링을 포함한 실체를 총 30 만 쌍으로 묘사하는 방법을 설명합니다.
OpenCorpus 자유롭게 이용할 수있는 (중국) 기업 모음.
Chinesenlpcorpus 감정/관점/의견 경력 분석, 중국 이름 지정 실체 인식, 추천 시스템
FinancialDatasets SmoothNLP 재무 텍스트 데이터 세트 (공개) NLP 연구를위한 공개 재무 데이터 세트 만
People 's Daily & Children's Fairy Tale PD & CFT : 중국어 독해 데이터 세트
중국 Wiki 230,000 고품질 항목 - 7 월 23 일에 업데이트 - 필터링 된 민감한 또는 논쟁의 여지가있는 정보
Tsinghua University의 자연 언어 처리 및 인문학 컴퓨팅 실험실
Peking University의 전산 언어학 교육부 주요 실험실
자연 언어 처리 연구 그룹, 중국 과학 아카데미 컴퓨팅 연구소
Harbin Institute of Technology 지능형 기술 및 자연어 처리 실험실
Harbin Institute of Technology 소셜 컴퓨팅 및 정보 검색 연구 센터
후단 대학 자연 언어 처리 그룹
Soochow University의 자연어 가공 그룹
난징 대학교의 자연 언어 처리 연구 그룹
노스 이스턴 대학의 자연 언어 가공 실험실
자연 언어 가공 실험실, Xiamen University의 지능형 과학 기술학과
Zhengzhou University의 자연 언어 가공 실험실
Microsoft Research Institute of Asia Natural Language Processing
화웨이 노아의 방주 실험실
CUHK 텍스트 마이닝 그룹
Polyu 소셜 미디어 광업 그룹
Hkust 인간 언어 기술 센터
National Taiwan University NLP Lab
중국 정보 학회
NLP Conference Calender Main Conferences, Journals, Workshop 및 공유 작업 NLP 커뮤니티.
2017 첫 번째 "Iflying Cup"중국 기계 독해 이해 평가
2017 AI-Challenger Image 중국어 설명은 주어진 이미지의 주요 정보를 한 문장으로 설명하여 중국 상황에서 이미지 이해 문제에 도전합니다.
2017 AI-CHALLENGER 영어-중국 기계 텍스트 번역은 대규모 데이터를 사용하여 영어-중국어 텍스트 기계 번역 모델의 기능을 향상시킵니다.
2017 Zhihu Kanshan Cup Machine Learning Challenge는 Zhihu가 제공 한 문제의 구속력있는 관계에 대한 교육 데이터와 주제 태그에 대한 교육 데이터를 기반으로 비정상적인 데이터를 자동으로 표시하는 모델을 훈련시킵니다.
2018 중국어 Q & A 공개 도메인의 주어진 중국어 질문에 대해 Q & A 시스템은 주어진 지식 기반에서 여러 엔티티 또는 속성 값을 질문에 대한 답으로 선택합니다.
2018 Webank 지능형 고객 서비스 질문 일치 경쟁은 중국어의 실제 고객 서비스 코퍼스에 대한 질문과 일치합니다. 두 문장이 주어지면 두 문장의 의도가 비슷한 지 결정하십시오.
Huawei Cloud NLP는 다양한 기업 및 개발자가 제공하는 텍스트 분석 및 광업을위한 클라우드 서비스로, 사용자가 텍스트를 효율적으로 처리 할 수 있도록 도와줍니다.
Baidu Cloud NLP는 업계 최고의 자연 언어 처리 기술을 제공하여 고품질 텍스트 처리 및 기술을 제공합니다
Alibaba Cloud NLP는 모든 종류의 기업 및 개발자를위한 텍스트 분석 및 광업을위한 핵심 도구를 제공합니다.
Tencent Cloud NLP는 병렬 컴퓨팅 및 분산 크롤링 시스템을 기반으로하며 고유 한 의미 분석 기술과 결합되며 NLP, 트랜스 코딩, 추출, 데이터 크롤링 및 기타 요구 사항을 한 번에 충족시킵니다.
핵심 인공 지능 오픈 플랫폼으로서 음성 상호 작용을 가진 Iflytek 오픈 플랫폼
Sogou Laboratory Word 분사 및 부식 주석
Bosen Data Shanghai Bosen Data Technology Co., Ltd. 중국 시맨틱 분석 기술에 중점을 둡니다.
YUNFU 기술 NLP 툴킷, 지식 그래프, 텍스트 마이닝, 대화 시스템, 여론 분석 등
Zhiyan Technology는 딥 러닝 및 지식 그래프 기술의 혁신에 중점을 둡니다.
Zhuiyi 기술은 딥 러닝 및 자연어 처리에 중점을 둡니다.
중국 딥 러닝 북
스탠포드 CS224N 딥 러닝 2017을 사용한 자연 언어 처리
옥스포드 CS Deepnlp 2017
[Georgia Tech CS 4650 및 7650의 코스 자료, "자연 언어"] (https://github.com/jacobeisenstein/gt-nlp-class)
Dan Jurafsky와 James H. Martin의 연설 및 언어 처리
52NLP 자연어 처리를 좋아합니다
행크스 코드 팜
텍스트 처리 실용 코스 자료 텍스트 처리 실용적인 과정 자료에는 텍스트 기능 추출 (TF-IDF), 텍스트 분류, 텍스트 클러스터링, Word2VEC 교육 단어 벡터 및 동의어 숲 중국어 단어 유사성 계산, 자동 문서 요약, 정보 추출, 감정 분석 및 기타 실험이 포함됩니다.
NLP_TASKS 자연어 처리 작업 및 선택된 참조
Tsinghua University 교사 Liu Zhiyuan의 NLP 연구 소개
중국 NLP 공유 작업, 데이터 세트 및 중국 자연 언어 처리를위한 최첨단 결과