【Langya Bang】-Chinese Big Model Special Arena, 당신이 관심있는 주요 모델은 모두 여기에 있습니다.
최신 중국 모형 목록
슈퍼 클루 : 중국 일반 모델 포괄적 인 평가 벤치 마크
*** 업데이트 ****
중국 작업 벤치 마크 평가, 10 개의 주요 작업 및 한 번의 클릭으로 실행되는 9 가지 모델, 자세한 평가 :
중국어에 대한 언어 이해 평가 벤치 마크 (단서 벤치 마크) : 한 줄의 코드로 10 개의 작업 및 9 개의 기준선을 실행, 세부 사항과의 성능 비교.
Albert_chinese의 미리 훈련 된 모델 출시 :
30G+ Raw Chinese Corpus, XXLARGE, SMALL 버전 등으로 훈련은 중국의 전국의 날 동안 중국의 최첨단 공연을 30% 적은 매개 변수, 2019-OCT-7과 일치시키기위한 대상!
코퍼스는 계속 확장 될 것입니다. . .
1 단계 목표 : 천만 수준의 중국 코퍼스 및 3 백만 레벨의 중국 코퍼스 (2019 년 5 월 1 일)
2 단계 목표 : 3 천만 레벨의 중국 코퍼스 및 1 천만 레벨의 중국 코퍼스 및 1 억 수준의 중국 코퍼스 (2019 년 12 월 31 일)
업데이트 : 고품질 커뮤니티 Q & A JSON 버전 (WebText2019ZH)이 추가되었으며, 이는 초대형 NLP 모델을 훈련시키는 데 사용할 수 있습니다. 520 만 번 번역 된 코퍼스 (Translation2019ZH)를 추가하십시오.
중국 정보는 어디에나 있지만, 쉽지 않으며 때로는 많은 양의 중국 코퍼스를 얻는 것은 매우 어렵습니다. 현재 2019 년 초
일반 실무자, 연구원 또는 학생들은 많은 양의 중국 코퍼스를 얻을 수있는 좋은 수로가 없습니다. 저자는 중국어 단어 벡터를 훈련시키기를 원합니다.
Baidu와 Github에서 오랫동안 검색 한 후에는 거의 얻지 못했습니다. 코퍼스의 크기가 너무 작거나 데이터가 너무 오래되거나 필요한 처리가 너무 복잡합니다.
당신도 그런 문제를 겪었는지 궁금합니다.
우리의 프로젝트는이 문제를 해결하기 위해 빈약 한 노력을 기울이는 것입니다.
Google 드라이브 다운로드 또는 Baidu Cloud Drive
可以做为通用中文语料,做预训练的语料或构建词向量,也可以用于构建知识问答。
{"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中,title是词条的标题,text是正文;通过"nn"换行。
{"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学nn经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。nn经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。..."}
经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为,以及他们彼此之间的互动。在现代,经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为,包括个体的行为者(例如个人、公司、买家或卖家)以及与市场的互动。而宏观经济学则分析整个经济体和其议题,包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学(研究「是什么」)以及规范经济学(研究「应该是什么」)、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学(研究理性-个体-均衡等)与非主流经济学(研究体制-历史-社会结构等)。
经济学的分析也被用在其他各种领域上,主要领域包括了商业、金融、和政府等,但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。到了21世纪初,经济学在社会科学领域各方面不断扩张影响力,使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法,其中有许多说法因为发展自不同的领域或理论而有截然不同的定义,苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」,他说:
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来,并定义其为对于财富之生产、分配、和消费的学问。另一方面,托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」(Dismal science),不过这一词最早是由马尔萨斯在1798年提出。约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度:
.....

Google 드라이브 다운로드 또는 Baidu Cloud Drive, Password : K265 다운로드
250 만 뉴스 기사가 포함되어 있습니다. 뉴스 소스는 제목, 키워드, 설명 및 텍스트를 포함하여 63,000 개의 미디어를 다룹니다.
데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 2.43 백만; 확인 세트 : 77,000; 테스트 세트, 수만, 다운로드는 제공되지 않습니다.
可以做为【通用中文语料】,训练【词向量】或做为【预训练】的语料;
也可以用于训练【标题生成】模型,或训练【关键词生成】模型(选关键词内容不同于标题的数据);
亦可以通过新闻渠道区分出新闻的类型。
{'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}
其中,title是新闻标题,content是正文,keywords是关键词,desc是描述,source是新闻的来源,time是发布时间
{"news_id": "610130831", "keywords": "导游,门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称,故宫午门广场售票处出现“黑导游”,专门向外地游客出售高价门票。昨日,记者实地探访故宫,发现“黑导游”确实存在。窗口出售40元的门票,被“黑导游”加价出售,最高加到140元。故宫方面表示,请游客务必通过正规渠道购买门票,避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟,耐心排队购票也不会等待太长时间。....再反弹”的态势,打击黑导游需要游客配合,通过正规渠道购买门票。"}

Google 드라이브 다운로드 또는 Baidu Cloud Drive, Password : FU45 다운로드
150 만 명의 사전 여과, 고품질 질문과 답변이 포함되어 있으며 각 질문은 각각 범주에 속합니다. 총 492 개의 카테고리가 있으며 그 중 434 개 범주가 10 배에 도달하거나 초과했습니다.
데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 1.425 백만; 확인 세트 : 45,000; 테스트 세트, 수만, 다운로드는 제공되지 않습니다.
可以做为通用中文语料,训练词向量或做为预训练的语料;也可以用于构建百科类问答;其中类别信息比较有用,可以用于做监督训练,从而构建
更好句子表示的模型、句子相似性任务等。
{"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}
其中,category是问题的类型,title是问题的标题,desc是问题的描述,可以为空或与标题内容一致。
{"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢,还是夏天进步好啊? ", "desc": "", "answer": "你好!rr当然是冬天进补好的了,夏天人体的胃处于收缩状态,不适宜大量的进补,所以我们有时候说:“夏天就要吃些清淡的,就是这个道理的。”rr不过,秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药,有病治病,无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里,人们由于喝冷饮,常食冻品,多有脾胃功能减弱的现象,这时候如果突然大量进补,会骤然加重脾胃及肝脏的负担,使长期处于疲弱的消化器官难于承受,导致消化器官功能紊乱。 rr二忌以药代食。重药物轻食物的做法是不科学的,许多食物也是好的滋补品。如多吃荠菜可治疗高血压;多吃萝卜可健胃消食,顺气宽胸;多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。rr三忌越贵越好。每个人的身体状况不同,因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症,应以实用有效为滋补原则,缺啥补啥。 rr四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后,由于脾胃尚未完全恢复到正常功能,因此过于油腻的食品不易消化吸收。另外,体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

유효성 검사 세트에서 모델의 정확도를보고하는 데 오신 것을 환영합니다. 작업 1 : 범주 예측.
보고서는 다음과 같습니다. #1) 확인 세트의 정확도; #2) 모델, 메소드 설명, 작동 모드 사용, 1 페이지 PDF; #3) 실행 가능한 소스 코드 (선택 사항)
#2 및 #3을 기반으로 테스트 세트에 대한 테스트를 수행하고 테스트 세트의 정확도를보고합니다. #1과 #2가있는 팀 만 제공되며 검증 세트의 결과는 여전히 표시 될 수 있지만 검증되지 않은 것으로 표시됩니다.
Google 드라이브 다운로드
410 만 건의 사전 여과, 고품질 질문 및 답변이 포함되어 있습니다. 각 질문은 [주제]에 속하며 총 28,000 개의 다양한 주제가 있으며 주제는 모두 포괄적입니다.
1,400 만 개의 원본 Q & A에서, 최소 3 개 이상의 좋아요를받은 답변을 필터링한다는 것은 응답 내용이 비교적 좋거나 흥미 롭으므로 고품질 데이터 세트를 얻는다는 것을 의미합니다.
주제, 질문에 대한 설명 및 각 질문에 대한 하나 이상의 답변에 해당하는 것 외에도 각 답변에는 숫자, 답장 ID 및 답장과 같은 태그도 있습니다.
데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 4.12 백만; 확인 세트 : 68,000; 테스트 세트 A : 68,000; 테스트 세트 B, 다운로드가 제공되지 않습니다.
1)构建百科类问答:输入一个问题,构建检索系统得到一个回复或生产一个回复;或根据相关关键词从,社区问答库中筛选出你相关的领域数据
2)训练话题预测模型:输入一个问题(和或描述),预测属于话题。
3)训练社区问答(cQA)系统:针对一问多答的场景,输入一个问题,找到最相关的问题,在这个基础上基于不同答案回复的质量、
问题与答案的相关性,找到最好的答案。
4)做为通用中文语料,做大模型预训练的语料或训练词向量。其中类别信息也比较有用,可以用于做监督训练,从而构建更好句子表示的模型、句子相似性任务等。
5)结合点赞数量这一额外信息,预测回复的受欢迎程度或训练答案评分系统。
{"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,
"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}
其中,qid是问题的id,title是问题的标题,desc是问题的描述,可以为空;topic是问题所属的话题,star是该回复的点赞个数,
content是回复的内容,answer_id是回复的ID,answerer_tags是回复者所携带的标签
{"qid": 65618973, "title": "AlphaGo只会下围棋吗?阿法狗能写小说吗?", "desc": "那么现在会不会有智能机器人能从事文学创作?<br>如果有,能写出什么水平的作品?", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋,因为它的设计目的,架构,技术方案以及训练数据,都是围绕下围棋这个核心进行的。它在围棋领域的突破,证明了深度学习深度强化学习MCTS技术在围棋领域的有效性,并且取得了重大的PR效果。AlphaGo不会写小说,它是专用的,不会做跨出它领域的其它事情,比如语音识别,人脸识别,自动驾驶,写小说或者理解小说。如果要写小说,需要用到自然语言处理(NLP))中的自然语言生成技术,那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

작업 1 : 주제 예측.
보고서는 다음과 같습니다. #1) 확인 세트의 정확도; #2) 모델, 메소드 설명, 작동 모드 사용, 1 페이지 PDF; #3) 실행 가능한 소스 코드 (선택 사항)
#2 및 #3을 기반으로 테스트 세트에 대한 테스트를 수행하고 테스트 세트의 정확도를보고합니다. #1과 #2가있는 팀 만 제공되며 검증 세트의 결과는 여전히 표시 될 수 있지만 검증되지 않은 것으로 표시됩니다.
작업 2 : 커뮤니티 Q & A (CQA) 시스템 교육.
요구 사항 : 평가 표시기는 맵을 채택하고, 문제를 분류하는 데 적합한 테스트 세트를 구축하고, 테스트 세트에 미치는 영향을보고합니다.
작업 3 :이 데이터 세트 (WebText2019ZH)를 사용하고 OpenAI의 GPT-2를 참조하고 중국어 텍스트 작성 모델을 열고, 다른 데이터 세트에 대한 제로 샷의 영향을 테스트하거나, 언어 모델의 효과를 평가하십시오.
Google 드라이브 다운로드
중국어와 영어로 520 만 쌍의 평행 코퍼스. 각 쌍에는 하나의 영어와 해당 중국어가 포함되어 있습니다. 중국어 나 영어로 대부분의 경우 구두점이있는 완전한 문장입니다.
평행 한 중국어-영어 쌍의 경우 평균적으로 중국어에는 36자가, 평균적으로 영어에는 19 개의 단어가 있습니다 ( "그녀"와 같은 단어)
데이터 세트 디비전 : 데이터는 중복 제거되어 세 부분으로 나뉩니다. 훈련 세트 : 5.16 백만; 확인 세트 : 39,000; 테스트 세트, 수만, 다운로드는 제공되지 않습니다.
可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文;
由于有上百万的中文句子,可以只抽取中文的句子,做为通用中文语料,训练词向量或做为预训练的语料。英文任务也可以类似操作;
{"english": <english>, "chinese": <chinese>}
其中,english是英文句子,chinese是中文句子,中英文一一对应。
{"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利,公众不会真的向政府施压,要求实行新的、更公平的税收制度。"}

중국어 코퍼스에 기여하려면 [email protected]으로 이메일을 보내주십시오.
중국 자연 언어 처리 분야의 개발을 촉진하기 위해 대규모 공개 개방형 및 공유 중국 코퍼스를 공동으로 설립하기 위해 프로젝트에 제공되고 채택 된 코퍼스의 개발을 촉진합니다.
기고자 목록 (선택 사항)을 나열하는 것 외에도 코퍼스의 품질과 규모에 따라 상위 20 명의 학생을 선택하고 키보드, 마우스 및
스크린, 무선 헤드폰, 스마트 스피커 또는 기타 가치가있는 기타 항목을 표시하여 기고자에게 감사를 표합니다.
이메일을 보내서 여기에 중국어 코퍼스를 추가하십시오.
데이터와 관련하여 문제가있는 경우 데이터와 연락 할 수도 있습니다. 1 주일 이내에 처리하겠습니다.
이해 해주셔서 감사합니다.
@misc{bright_xu_2019_3402023,
author = {Bright Xu},
title = {NLP Chinese Corpus: Large Scale Chinese Corpus for NLP },
month = sep,
year = 2019,
doi = {10.5281/zenodo.3402023},
version = {1.0},
publisher = {Zenodo},
url = {https://doi.org/10.5281/zenodo.3402023}
}
또한 논문 제목을 이메일로 보내 거나이 프로젝트의 데이터 세트에 대한 작업
중국어 코퍼스에 기여하려면 이메일을 보내주십시오 : [email protected];
파이썬을 사용하여 Wiki Chinese Corpus Word 벡터 모델 구성 실험
Wikipedia 덤프에서 일반 텍스트를 추출하는 도구
순수한 파이썬에서 Open Chinese Convert (OpenCC) : Open Chinese Convert
중국어로 최신 Wiki의 덤프