nlp_chinese_corpus 다운로드 nlp_chinese_corpus 소스 코드 다운로드

중국 자연 언어 처리의 개발에 자료를 기여

【Langya Bang】-Chinese Big Model Special Arena, 당신이 관심있는 주요 모델은 모두 여기에 있습니다.

최신 중국 모형 목록

슈퍼 클루 : 중국 일반 모델 포괄적 인 평가 벤치 마크

*** 업데이트 ****

중국 작업 벤치 마크 평가, 10 개의 주요 작업 및 한 번의 클릭으로 실행되는 9 가지 모델, 자세한 평가 :

중국어에 대한 언어 이해 평가 벤치 마크 (단서 벤치 마크) : 한 줄의 코드로 10 개의 작업 및 9 개의 기준선을 실행, 세부 사항과의 성능 비교.

Albert_chinese의 미리 훈련 된 모델 출시 :

30G+ Raw Chinese Corpus, XXLARGE, SMALL 버전 등으로 훈련은 중국의 전국의 날 동안 중국의 최첨단 공연을 30% 적은 매개 변수, 2019-OCT-7과 일치시키기위한 대상!

코퍼스는 계속 확장 될 것입니다. . .

1 단계 목표 : 천만 수준의 중국 코퍼스 및 3 백만 레벨의 중국 코퍼스 (2019 년 5 월 1 일)

2 단계 목표 : 3 천만 레벨의 중국 코퍼스 및 1 천만 레벨의 중국 코퍼스 및 1 억 수준의 중국 코퍼스 (2019 년 12 월 31 일)

업데이트 : 고품질 커뮤니티 Q & A JSON 버전 (WebText2019ZH)이 추가되었으며, 이는 초대형 NLP 모델을 훈련시키는 데 사용할 수 있습니다. 520 만 번 번역 된 코퍼스 (Translation2019ZH)를 추가하십시오.

1. Wikipedia (Wiki2019ZH), 1 백만 개의 잘 구조화 된 중국어 항목

2. News Corpus (News2016ZH), 키워드 및 설명을 포함한 250 만 뉴스 기사

3. EncyClopedia Q & A (Baike2018QA), 질문이있는 150 만 Q & A

4. 커뮤니티 Q & A JSON 버전 (WebText2019ZH), 410 만 고품질 커뮤니티 Q & A, 교육에 적합한 슈퍼 큰 모델

5. Translation Corpus (Translation2019ZH), 520 만 중국어 및 영어 문장 쌍

이 프로젝트가 필요한 이유

중국 정보는 어디에나 있지만, 쉽지 않으며 때로는 많은 양의 중국 코퍼스를 얻는 것은 매우 어렵습니다. 현재 2019 년 초

일반 실무자, 연구원 또는 학생들은 많은 양의 중국 코퍼스를 얻을 수있는 좋은 수로가 없습니다. 저자는 중국어 단어 벡터를 훈련시키기를 원합니다.

Baidu와 Github에서 오랫동안 검색 한 후에는 거의 얻지 못했습니다. 코퍼스의 크기가 너무 작거나 데이터가 너무 오래되거나 필요한 처리가 너무 복잡합니다.

당신도 그런 문제를 겪었는지 궁금합니다.

우리의 프로젝트는이 문제를 해결하기 위해 빈약 한 노력을 기울이는 것입니다.

1. Wikipedia JSON 버전 (Wiki2019ZH)

1,040 만 항목 (1,043,224 항목; 원본 파일 크기는 1.6G, 압축 파일 519m; 데이터 업데이트 시간 : 2019.2.7)

Google 드라이브 다운로드 또는 Baidu Cloud Drive

가능한 용도 :

可以做为通用中文语料，做预训练的语料或构建词向量，也可以用于构建知识问答。

구조:

 {"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中，title是词条的标题，text是正文；通过"nn"换行。

예:

 {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学nn经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。nn经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

효과:

经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学（研究「是什么」）以及规范经济学（研究「应该是什么」）、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学（研究理性-个体-均衡等）与非主流经济学（研究体制-历史-社会结构等）。
经济学的分析也被用在其他各种领域上，主要领域包括了商业、金融、和政府等，但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。到了21世纪初，经济学在社会科学领域各方面不断扩张影响力，使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法，其中有许多说法因为发展自不同的领域或理论而有截然不同的定义，苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」，他说：
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来，并定义其为对于财富之生产、分配、和消费的学问。另一方面，托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」（Dismal science），不过这一词最早是由马尔萨斯在1798年提出。约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度：
.....

2. News Corpus JSON 버전 (News2016ZH)

250 만 뉴스 기사 (원본 데이터 9G, 압축 파일 3.6G; 뉴스 내용 범위 : 2014-2016)

Google 드라이브 다운로드 또는 Baidu Cloud Drive, Password : K265 다운로드

데이터 설명

250 만 뉴스 기사가 포함되어 있습니다. 뉴스 소스는 제목, 키워드, 설명 및 텍스트를 포함하여 63,000 개의 미디어를 다룹니다.

데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 2.43 백만; 확인 세트 : 77,000; 테스트 세트, 수만, 다운로드는 제공되지 않습니다.

가능한 용도 :

可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；

也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；

亦可以通过新闻渠道区分出新闻的类型。

구조:

 {'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}

其中，title是新闻标题，content是正文，keywords是关键词，desc是描述，source是新闻的来源，time是发布时间

예:

 {"news_id": "610130831", "keywords": "导游，门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售40元的门票，被“黑导游”加价出售，最高加到140元。故宫方面表示，请游客务必通过正规渠道购买门票，避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟，耐心排队购票也不会等待太长时间。....再反弹”的态势，打击黑导游需要游客配合，通过正规渠道购买门票。"}

3. EncyClopedia Q & A JSON 버전 (Baike2018QA)

150 만 Q & A (원본 데이터는 1G 이상이고 압축 파일은 663m, 데이터 업데이트 시간 : 2018)

Google 드라이브 다운로드 또는 Baidu Cloud Drive, Password : FU45 다운로드

데이터 설명

150 만 명의 사전 여과, 고품질 질문과 답변이 포함되어 있으며 각 질문은 각각 범주에 속합니다. 총 492 개의 카테고리가 있으며 그 중 434 개 범주가 10 배에 도달하거나 초과했습니다.

데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 1.425 백만; 확인 세트 : 45,000; 테스트 세트, 수만, 다운로드는 제공되지 않습니다.

가능한 용도 :

可以做为通用中文语料，训练词向量或做为预训练的语料；也可以用于构建百科类问答；其中类别信息比较有用，可以用于做监督训练，从而构建

更好句子表示的模型、句子相似性任务等。

구조:

 {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中，category是问题的类型，title是问题的标题，desc是问题的描述，可以为空或与标题内容一致。

예:

 {"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？ ", "desc": "", "answer": "你好！rr当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”rr不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。 rr二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。rr三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。 rr四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

공개 검토 :

유효성 검사 세트에서 모델의 정확도를보고하는 데 오신 것을 환영합니다. 작업 1 : 범주 예측.

보고서는 다음과 같습니다. #1) 확인 세트의 정확도; #2) 모델, 메소드 설명, 작동 모드 사용, 1 페이지 PDF; #3) 실행 가능한 소스 코드 (선택 사항)

#2 및 #3을 기반으로 테스트 세트에 대한 테스트를 수행하고 테스트 세트의 정확도를보고합니다. #1과 #2가있는 팀 만 제공되며 검증 세트의 결과는 여전히 표시 될 수 있지만 검증되지 않은 것으로 표시됩니다.

4. 커뮤니티 Q & A JSON 버전 (WebText2019ZH) : 대규모 고품질 데이터 세트

410 만 Q & A (필터링 된 데이터 3.7G, 압축 파일 1.7G; 데이터 범위 : 2015-2016)

Google 드라이브 다운로드

데이터 설명

410 만 건의 사전 여과, 고품질 질문 및 답변이 포함되어 있습니다. 각 질문은 [주제]에 속하며 총 28,000 개의 다양한 주제가 있으며 주제는 모두 포괄적입니다.

1,400 만 개의 원본 Q & A에서, 최소 3 개 이상의 좋아요를받은 답변을 필터링한다는 것은 응답 내용이 비교적 좋거나 흥미 롭으므로 고품질 데이터 세트를 얻는다는 것을 의미합니다.

주제, 질문에 대한 설명 및 각 질문에 대한 하나 이상의 답변에 해당하는 것 외에도 각 답변에는 숫자, 답장 ID 및 답장과 같은 태그도 있습니다.

데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 4.12 백만; 확인 세트 : 68,000; 테스트 세트 A : 68,000; 테스트 세트 B, 다운로드가 제공되지 않습니다.

가능한 용도 :

 1）构建百科类问答：输入一个问题，构建检索系统得到一个回复或生产一个回复；或根据相关关键词从，社区问答库中筛选出你相关的领域数据

2）训练话题预测模型：输入一个问题(和或描述)，预测属于话题。

3）训练社区问答(cQA)系统：针对一问多答的场景，输入一个问题，找到最相关的问题，在这个基础上基于不同答案回复的质量、

  问题与答案的相关性，找到最好的答案。

4）做为通用中文语料，做大模型预训练的语料或训练词向量。其中类别信息也比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。

5）结合点赞数量这一额外信息，预测回复的受欢迎程度或训练答案评分系统。

구조:

 {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,

"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}

其中，qid是问题的id，title是问题的标题，desc是问题的描述，可以为空；topic是问题所属的话题，star是该回复的点赞个数，

content是回复的内容，answer_id是回复的ID,answerer_tags是回复者所携带的标签

예:

 {"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

이 데이터 세트의 공개 평가 및 작업 :

작업 1 : 주제 예측.

보고서는 다음과 같습니다. #1) 확인 세트의 정확도; #2) 모델, 메소드 설명, 작동 모드 사용, 1 페이지 PDF; #3) 실행 가능한 소스 코드 (선택 사항)

작업 2 : 커뮤니티 Q & A (CQA) 시스템 교육.

요구 사항 : 평가 표시기는 맵을 채택하고, 문제를 분류하는 데 적합한 테스트 세트를 구축하고, 테스트 세트에 미치는 영향을보고합니다.

작업 3 :이 데이터 세트 (WebText2019ZH)를 사용하고 OpenAI의 GPT-2를 참조하고 중국어 텍스트 작성 모델을 열고, 다른 데이터 세트에 대한 제로 샷의 영향을 테스트하거나, 언어 모델의 효과를 평가하십시오.

5. 코퍼스 번역 (Translation2019ZH)

중국어와 영어의 5.2 백만 병렬 코퍼스 (원본 데이터 1.1g, 압축 파일 596m)

Google 드라이브 다운로드

데이터 설명

중국어와 영어로 520 만 쌍의 평행 코퍼스. 각 쌍에는 하나의 영어와 해당 중국어가 포함되어 있습니다. 중국어 나 영어로 대부분의 경우 구두점이있는 완전한 문장입니다.

평행 한 중국어-영어 쌍의 경우 평균적으로 중국어에는 36자가, 평균적으로 영어에는 19 개의 단어가 있습니다 ( "그녀"와 같은 단어)

데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 5.16 백만; 확인 세트 : 39,000; 테스트 세트, 수만, 다운로드는 제공되지 않습니다.

가능한 용도 :

可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；

由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；

구조:

 {"english": <english>, "chinese": <chinese>}

其中，english是英文句子，chinese是中文句子，中英文一一对应。

예:

 {"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

기부금

중국어 코퍼스에 기여하려면 [email protected]으로 이메일을 보내주십시오.

중국 자연 언어 처리 분야의 개발을 촉진하기 위해 대규모 공개 개방형 및 공유 중국 코퍼스를 공동으로 설립하기 위해 프로젝트에 제공되고 채택 된 코퍼스의 개발을 촉진합니다.

기고자 목록 (선택 사항)을 나열하는 것 외에도 코퍼스의 품질과 규모에 따라 상위 20 명의 학생을 선택하고 키보드, 마우스 및

스크린, 무선 헤드폰, 스마트 스피커 또는 기타 가치가있는 기타 항목을 표시하여 기고자에게 감사를 표합니다.

이메일을 보내서 여기에 중국어 코퍼스를 추가하십시오.

데이터와 관련하여 문제가있는 경우 데이터와 연락 할 수도 있습니다. 1 주일 이내에 처리하겠습니다.

이해 해주셔서 감사합니다.

프로젝트 기고자 또는 조직 점검표

Reactivecj

인용 / 우리를 어떻게 인용합니까?

 @misc{bright_xu_2019_3402023,
author       = {Bright Xu},
title        = {NLP Chinese Corpus: Large Scale Chinese Corpus for NLP },
month        = sep,
year         = 2019,
doi          = {10.5281/zenodo.3402023},
version      = {1.0},
publisher    = {Zenodo},
url          = {https://doi.org/10.5281/zenodo.3402023}
}

또한 논문 제목을 이메일로 보내 거나이 프로젝트의 데이터 세트에 대한 작업

중국어 코퍼스에 기여하려면 이메일을 보내주십시오 : [email protected];

참조

파이썬을 사용하여 Wiki Chinese Corpus Word 벡터 모델 구성 실험
Wikipedia 덤프에서 일반 텍스트를 추출하는 도구
순수한 파이썬에서 Open Chinese Convert (OpenCC) : Open Chinese Convert
중국어로 최신 Wiki의 덤프

확장하다