중국어에 대한 언어 이해 평가 벤치 마크 : 데이터 세트, 기준선, 미리 훈련 된 모델, 코퍼스 및 리더 보드
대표 데이터 세트, 사전 마크 (사전 간) 모델, 코퍼스 및 순위를 포함한 중국어 이해 평가 벤치 마크.
"2019 년 11 월 22 일 업데이트"
1) [권장] 새 버전,보다 체계적이고 포괄적이며 더 나은 기술 지원, 새 주소 마이그레이션 : https://github.com/cluebenchmark/clue
2) 분류 또는 문장-서식 작업과 같은 실제 작업에 주로 중점을 둔 원래 클래식 버전은이 프로젝트에서 계속 유지되고 업데이트됩니다.
테스트 벤치 마크의 데이터 세트로 특정 대표 작업에 해당하는 일련의 데이터 세트를 선택합니다. 이 데이터 세트는 다양한 작업, 데이터 볼륨 및 작업 난이도를 다룹니다.
| 모델 | 점수 | 매개 변수 | tnews | LCQMC | xnli | inews | BQ | MSRANER | Thucnews | iflytekdata |
|---|---|---|---|---|---|---|---|---|---|---|
| 버트베이스 | 84.57 | 108m | 89.78 | 86.9 | 77.8 | 82.7 | 85.08 | 95.38 | 95.35 | 63.57 |
| Bert-WWM-EXT | 84.89 | 108m | 89.81 | 87.3 | 78.7 | 83.46 | 85.21 | 95.26 | 95.57 | 63.83 |
| 어니베이스 | 84.63 | 108m | 89.83 | 87.2 | 78.6 | 85.14 | 84.47 | 95.17 | 94.9 | 61.75 |
| Roberta-Large | 85.08 | 334m | 89.91 | 87.2 | 79.9 | 84 | 85.2 | 96.07 | 94.56 | 63.8 |
| xlnet-mid | 81.07 | 209m | 86.26 | 85.98 | 78.7 | 84 | 77.85 | 92.11 | 94.54 | 60.16 |
| Albert-Xlarge | 84.08 | 59m | 88.3 | 86.76 | 74.0? | 82.4 | 84.21 | 89.51 | 95.45 | 61.94 |
| 앨버트 타이티 | 78.22 | 1.8m | 87.1 | 85.4 | 68 | 81.4 | 80.76 | 84.77 | 93.54 | 44.83 |
| Roberta-WWM-EXT | 84.55 | 108m | 89.79 | 86.33 | 79.28 | 82.28 | 84.02 | 95.06 | 95.52 | 64.18 |
| Roberta-WWM-Large | 85.13 | 330m | 90.11 | 86.82 | 80.04 | 82.78 | 84.9 | 95.32 | 95.93 | 65.19 |
DRCD & CMRC2018 : 추출 된 독해 이해 (F1, EM); CHID : 관용교 다중 클래식 독해 (ACC); BQ : 지능형 고객 서비스 질문 매칭 (ACC); MSRANER : 이름 지정 엔터티 인식 (F1); IFLYTEK : 긴 텍스트 분류 (ACC);
점수는 1-9 데이터 세트의 평균 점수를 계산하여 얻습니다.
| 모델 | 점수 | 매개 변수 | DRCD | CMRC2018 | chid |
|---|---|---|---|---|---|
| 버트베이스 | 79.08 | 108m | 85.49 | 69.72 | 82.04 |
| Bert-WWM-EXT | - | 108m | 87.15 | 73.23 | - |
| 어니베이스 | - | 108m | 86.03 | 73.32 | - |
| Roberta-Large | 83.32 | 334m | 89.35 | 76.11 | 84.5 |
| xlnet-mid | - | 209m | 83.28 | 66.51 | - |
| Albert-Xlarge | - | 59m | 89.78 | 75.22 | - |
| 앨버트 -xxlarge | - | - | - | - | - |
| 앨버트 타이티 | - | 1.8m | 70.08 | 53.68 | - |
| Roberta-WWM-EXT | 81.88 | 108m | 88.12 | 73.89 | 83.62 |
| Roberta-WWM-Large | 84.22 | 330m | 90.70 | 76.58 | 85.37 |
참고 : 위의 지표에서 F1과 EM이 공존 할 때 EM은 최종 지표로 간주됩니다.
공통 언어 모델의 평가를 보충하는 중국어 이해, 과제 및 산업에 더 나은 서비스를 제공하기 위해 중국어 이해 인프라를 개선하여 중국어 모델의 개발을 촉진합니다.
*** 2019-10-13 : 평가를 위해 공식 웹 사이트가 추가되었습니다. inews 기준선 모델 ***
평가 포털
중국어라나 가이를 이해하기위한 벤치 마크가 필요한 이유는 무엇입니까?
우선, 중국어는 고유 한 구체적이고 광범위한 응용 프로그램을 가진 큰 언어입니다.
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
둘째, 영어 데이터 세트와 비교하여 중국어에는 공개적으로 이용 가능한 데이터 세트가 상대적으로 적습니다.
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
다시 말하지만, 언어 이해는 현재 단계로 발전했으며 미리 훈련 된 모델은 자연어 이해를 크게 촉진했습니다.
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
그런 다음 대중이 널리 사용하고 평가할 수있는 일련의 데이터 세트, 적용 가능한 중국 작업의 특성 및 현재 세계 기술의 개발에 따라 중국 작업에 대한 벤치 마크 테스트가있는 경우
能缓解当前中文任务的一些问题,并促进相关应用的发展。
중국어에 대한 언어 이해 평가 벤치 마크 (중국어)는 접착제로부터 아이디어를 얻었습니다.
자연어 이해 시스템 교육, 평가 및 분석을위한 리소스. ChineseGlue는 다음으로 구성됩니다.
여러 문장 또는 문장 쌍 언어 이해 작업의 벤치 마크. 현재이 작업에 사용 된 데이터 세트는 공개적으로 제공됩니다. 2019 년 말 전에 개인 테스트 세트가 포함 된 데이터 세트를 포함시킬 것입니다.
성능 추적을위한 공개 리더 보드. 이러한 작업에 예측 파일을 제출할 수 있으며 각 작업은 평가 및 점수가 매겨지며 최종 점수도 제공됩니다.
중국식 작업을위한 기준선. 기준은 Tensorflow, Pytorch, Keras 및 Paddlepaddle에서 제공됩니다.
사전 훈련 또는 언어 모델링 연구 목적을위한 엄청난 양의 원시 코퍼스. 2019 년에는 약 10G 원시 코퍼스가 포함됩니다.
2020 년 상반기에는 최소 30g의 원시 코퍼스가 포함됩니다. 2020 년 말까지, 우리는 100G와 같은 충분한 원료 코퍼스를 포함 할 수 있으므로 범용 언어 모델링을 위해 더 이상 원시 코퍼스가 필요하지 않을 정도로 충분히 커질 것입니다. 범용 또는 도메인 적응 또는 텍스트 생성에도 사용할 수 있습니다. 도메인 적응에 사용하면 관심있는 코퍼스를 선택할 수 있습니다.
입력은 두 문장이고 출력은 0 또는 1입니다. 여기서 0은 의미론이 비슷하지 않으며 1은 의미론이 비슷하다는 것을 의미합니다.
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办? [分隔符] 父母没钱买房子 [分隔符] 0
전제와 가정이 주어지면, 언어 교차 이해를위한 데이터 세트는이 가정과 전제에 의미, 야당 및 중립 관계가 있는지 여부를 결정합니다.
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
델타 독해 데이터 세트 (DRCD) (https://github.com/drcknowledgeteam/drcd)는 일반적인 전통적인 중국 기계 읽기 및 이해 데이터 세트입니다. 이 데이터 세트는 재배치 학습에 적합한 표준 중국어 읽기 및 이해 데이터 세트 일 것으로 예상됩니다.
数据量:训练集(8,016个段落,26,936个问题),验证集(1,000个段落,3,524个问题),测试集(1,000个段落,3,493个问题)
例子:
{
"version": "1.3",
"data": [
{
"title": "基督新教",
"id": "2128",
"paragraphs": [
{
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
"id": "2128-2",
"qas": [
{
"id": "2128-2-1",
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
"answers": [
{
"id": "1",
"text": "因信稱義",
"answer_start": 92
}
]
},
{
"id": "2128-2-2",
"question": "哪本經典為新教的最高權威?",
"answers": [
{
"id": "1",
"text": "聖經",
"answer_start": 105
}
]
}
]
}
]
}
]
}
데이터 형식은 분대와 동일합니다. 평가를 위해 단순화 된 중국 모델을 사용하면 단순화로 전환 할 수 있습니다 (이 프로젝트가 제공되었습니다).
https://hfl-rc.github.io/cmrc2018/
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消费者信心指数由什么机构发布?",
"answers": [
"工商协进会",
"工商协进会",
"工商协进会"
]
}
]
}
]
}
데이터 형식은 분대와 동일합니다
이 데이터 세트는 자동 질문 및 답변 시스템 코퍼스이며, 총 120,000 문장 쌍이며 값 0 또는 1 (0은 비슷한 것을 의미합니다). 데이터에는 오타 및 불규칙한 문법과 같은 문제가 있지만 산업 시나리오에 더 가깝습니다.
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!! [分隔符] 1
이 데이터 세트에는 각각 NR, NS 및 NT로 표시되는이 데이터 세트에는 5 만 명 이상의 중국어 명명 된 엔티티 식별 및 라벨링 데이터 (사람 이름, 장소 이름 및 조직 이름 포함)가 있으며 다른 엔터티는 O로 표시됩니다.
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
이 데이터 세트는 총 14 개의 범주를 가진 4 만 명 이상의 중국 뉴스 기반의 긴 텍스트 레이블 데이터를 가지고 있으며, "스포츠": 0, "엔터테인먼트": 1, "홈": 2, "복권": 3, "부동산": 4, "교육": 5, "패션": 6, "현재 문제": 7, "Zodiac": 8, "게임", "사회": 10, "": "" ":" "": "" ":"13 ".
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
이 데이터 세트에는 일상 생활과 관련된 다양한 애플리케이션 주제를 포함하여 앱 응용 프로그램 설명에 대한 17,000 개가 넘는 긴 텍스트가 있으며, "택시": 0, "Map Navigation": 1, "Free Wi-Fi": "2,"Car Rental ": 3, ....,"여성 ": 116,"Cash Collection ": 118 (0.118).
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265
관용구는 빈 공간에 숨겨져 있으며 텍스트의 많은 관용구가 가려지고 후보자는 동의어를 포함합니다.
数据量:训练集(84,709),验证集(3,218),测试集(3,231)
例子:
{
"content": [
# 文段0
"……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。",
# 文段1
"在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。",
# 文段2
"最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……",
# 文段3
"“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。",
# 文段4
"从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。",
# 文段5
"……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
"candidates": [
"百尺竿头",
"随波逐流",
"方兴未艾",
"身体力行",
"一日千里",
"三十而立",
"逆水行舟",
"日新月异",
"百花齐放",
"沧海一粟"
]
}
Chinesemnli 데이터는 원래 MNLI 데이터를 중국어와 영어로 변환합니다. 데이터는 소설, 전화, 여행, 정부, 슬레이트 등에서 비롯되며, 내재 된 두 문장 사이의 관계를 판단하는 데 사용됩니다.
数据量:train(391,783),matched(9336),mismatched(8,870)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}
더 많은 데이터 세트가 추가되고 있으며 정의 된 데이터 세트가있는 경우 당사에 문의하십시오.
또는 명령을 사용하십시오.
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| Albert-Xlarge | 88.30 | 88.30 | batch_size = 32, 길이 = 128, epoch = 3 |
| 버트베이스 | 89.80 | 89.78 | batch_size = 32, 길이 = 128, epoch = 3 |
| Bert-WWM-EXT-Base | 89.88 | 89.81 | batch_size = 32, 길이 = 128, epoch = 3 |
| 어니베이스 | 89.77 | 89.83 | batch_size = 32, 길이 = 128, epoch = 3 |
| Roberta-Large | 90.00 | 89.91 | batch_size = 16, 길이 = 128, epoch = 3 |
| xlnet-mid | 86.14 | 86.26 | batch_size = 32, 길이 = 128, epoch = 3 |
| Roberta-WWM-EXT | 89.82 | 89.79 | batch_size = 32, 길이 = 128, epoch = 3 |
| Roberta-WWM-Large-Ext | 90.05 | 90.11 | batch_size = 16, 길이 = 128, epoch = 3 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| Albert-Xlarge | 74.0? | 74.0? | batch_size = 64, 길이 = 128, epoch = 2 |
| 버트베이스 | 77.80 | 77.80 | batch_size = 64, 길이 = 128, epoch = 2 |
| Bert-WWM-EXT-Base | 79.4 | 78.7 | batch_size = 64, 길이 = 128, epoch = 2 |
| 어니베이스 | 79.7 | 78.6 | batch_size = 64, 길이 = 128, epoch = 2 |
| Roberta-Large | 80.2 | 79.9 | batch_size = 64, 길이 = 128, epoch = 2 |
| xlnet-mid | 79.2 | 78.7 | batch_size = 64, 길이 = 128, epoch = 2 |
| Roberta-WWM-EXT | 79.56 | 79.28 | batch_size = 64, 길이 = 128, epoch = 2 |
| Roberta-WWM-Large-Ext | 80.20 | 80.04 | batch_size = 16, 길이 = 128, epoch = 2 |
참고 : Albert-Xlarge, XNLI 작업에 대한 교육에는 여전히 문제가 있습니다.
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| Albert-Xlarge | 89.00 | 86.76 | batch_size = 64, 길이 = 128, epoch = 3 |
| 버트베이스 | 89.4 | 86.9 | batch_size = 64, 길이 = 128, epoch = 3 |
| Bert-WWM-EXT-Base | 89.1 | 87.3 | batch_size = 64, 길이 = 128, epoch = 3 |
| 어니베이스 | 89.8 | 87.2 | batch_size = 64, 길이 = 128, epoch = 3 |
| Roberta-Large | 89.9 | 87.2 | batch_size = 64, 길이 = 128, epoch = 3 |
| xlnet-mid | 86.14 | 85.98 | batch_size = 64, 길이 = 128, epoch = 3 |
| Roberta-WWM-EXT | 89.08 | 86.33 | batch_size = 64, 길이 = 128, epoch = 3 |
| Roberta-WWM-Large-Ext | 89.79 | 86.82 | batch_size = 16, 길이 = 128, epoch = 3 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| Albert-Xlarge | 81.80 | 82.40 | batch_size = 32, 길이 = 512, epoch = 8 |
| 버트베이스 | 81.29 | 82.70 | batch_size = 16, 길이 = 512, epoch = 3 |
| Bert-WWM-EXT-Base | 81.93 | 83.46 | batch_size = 16, 길이 = 512, epoch = 3 |
| 어니베이스 | 84.50 | 85.14 | batch_size = 16, 길이 = 512, epoch = 3 |
| Roberta-Large | 81.90 | 84.00 | batch_size = 4, 길이 = 512, epoch = 3 |
| xlnet-mid | 82.00 | 84.00 | batch_size = 8, 길이 = 512, epoch = 3 |
| Roberta-WWM-EXT | 82.98 | 82.28 | batch_size = 16, 길이 = 512, epoch = 3 |
| Roberta-WWM-Large-Ext | 83.73 | 82.78 | batch_size = 4, 길이 = 512, epoch = 3 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| 버트베이스 | F1 : 92.30 EM : 86.60 | F1 : 91.46 EM : 85.49 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| Bert-WWM-EXT-Base | F1 : 93.27 EM : 88.00 | F1 : 92.63 EM : 87.15 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| 어니베이스 | F1 : 92.78 EM : 86.85 | F1 : 92.01 EM : 86.03 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| 앨버트-레이지 | F1 : 93.90 EM : 88.88 | F1 : 93.06 EM : 87.52 | 배치 = 32, 길이 = 512, epoch = 3 lr = 2e-5 워밍업 = 0.05 |
| Albert-Xlarge | F1 : 94.63 EM : 89.68 | F1 : 94.70 EM : 89.78 | batch_size = 32, 길이 = 512, epoch = 3 lr = 2.5e-5 워밍업 = 0.06 |
| 앨버트 타이티 | F1 : 81.51 EM : 71.61 | F1 : 80.67 EM : 70.08 | 배치 = 32, 길이 = 512, epoch = 3 lr = 2e-4 워밍업 = 0.1 |
| Roberta-Large | F1 : 94.93 EM : 90.11 | F1 : 94.25 EM : 89.35 | 배치 = 32, 길이 = 256, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| xlnet-mid | F1 : 92.08 EM : 84.40 | F1 : 91.44 EM : 83.28 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| Roberta-WWM-EXT | F1 : 94.26 EM : 89.29 | F1 : 93.53 EM : 88.12 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| Roberta-WWM-Large-Ext | F1 : 95.32 EM : 90.54 | F1 : 95.06 EM : 90.70 | 배치 = 32, 길이 = 512, epoch = 2 lr = 2.5e-5 워밍업 = 0.1 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| 버트베이스 | F1 : 85.48 EM : 64.77 | F1 : 87.17 EM : 69.72 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| Bert-WWM-EXT-Base | F1 : 86.68 EM : 66.96 | F1 : 88.78 EM : 73.23 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| 어니베이스 | F1 : 87.30 EM : 66.89 | F1 : 89.62 EM : 73.32 | 배치 = 32, 길이 = 512, epoch = 2 lr = 3e-5 워밍업 = 0.1 |
| 앨버트-레이지 | F1 : 87.86 EM : 67.75 | F1 : 90.17 EM : 73.66 | epoch3, 배치 = 32, 길이 = 512, lr = 2e-5, 워밍업 = 0.05 |
| Albert-Xlarge | F1 : 88.66 EM : 68.90 | F1 : 90.92 EM : 75.22 | epoch3, 배치 = 32, 길이 = 512, lr = 2e-5, 워밍업 = 0.1 |
| 앨버트 타이티 | F1 : 73.95 EM : 48.31 | F1 : 75.73 EM : 53.68 | Epoch3, Batch = 32, 길이 = 512, lr = 2e-4, 워밍업 = 0.1 |
| Roberta-Large | F1 : 88.61 EM : 69.94 | F1 : 90.94 EM : 76.11 | epoch2, 배치 = 32, 길이 = 256, lr = 3e-5, 워밍업 = 0.1 |
| xlnet-mid | F1 : 85.63 EM : 65.31 | F1 : 86.09 EM : 66.51 | epoch2, 배치 = 32, 길이 = 512, lr = 3e-5, 워밍업 = 0.1 |
| Roberta-WWM-EXT | F1 : 87.28 EM : 67.89 | F1 : 89.74 EM : 73.89 | epoch2, 배치 = 32, 길이 = 512, lr = 3e-5, 워밍업 = 0.1 |
| Roberta-WWM-Large-Ext | F1 : 89.42 EM : 70.59 | F1 : 91.56 EM : 76.58 | epoch2, 배치 = 32, 길이 = 512, lr = 2.5e-5, 워밍업 = 0.1 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| 버트베이스 | 82.2 | 82.04 | 배치 = 24, 길이 = 64, epoch = 3 lr = 2e-5 |
| Bert-WWM-EXT-Base | - | - | - |
| 어니베이스 | - | - | - |
| 앨버트-레이지 | - | - | - |
| Albert-Xlarge | - | - | - |
| 앨버트 타이티 | - | - | - |
| Roberta-Large | 85.31 | 84.5 | 배치 = 24, 길이 = 64, epoch = 3 lr = 2e-5 |
| xlnet-mid | - | - | - |
| Roberta-WWM-EXT | 83.78 | 83.62 | 배치 = 24, 길이 = 64, epoch = 3 lr = 2e-5 |
| Roberta-WWM-Large-Ext | 85.81 | 85.37 | 배치 = 24, 길이 = 64, epoch = 3 lr = 2e-5 |
| 모델 | 일치합니다 | Missatched | 훈련 매개 변수 |
|---|---|---|---|
| 버트베이스 | 79.39 | 79.76 | 배치 = 32, 길이 = 128, epoch = 3 lr = 2e-5 |
| Bert-WWM-EXT-Base | 81.41 | 80.67 | 배치 = 32, 길이 = 128, epoch = 3 lr = 2e-5 |
| 어니베이스 | 79.65 | 80.70 | 배치 = 32, 길이 = 128, epoch = 3 lr = 2e-5 |
| 앨버트 -xxlarge | - | - | - |
| 앨버트 타이티 | 72.71 | 72.72 | 배치 = 32, 길이 = 128, epoch = 3 lr = 2e-5 |
| Roberta-Large | - | - | - |
| xlnet-mid | 78.15 | 76.93 | 배치 = 16, 길이 = 128, epoch = 3 lr = 2e-5 |
| Roberta-WWM-EXT | 81.09 | 81.38 | 배치 = 32, 길이 = 128, epoch = 3 lr = 2e-5 |
| Roberta-WWM-Large-Ext | 83.4 | 83.42 | 배치 = 32, 길이 = 128, epoch = 3 lr = 2e-5 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| 버트베이스 | 85.86 | 85.08 | batch_size = 64, 길이 = 128, epoch = 3 |
| Bert-WWM-EXT-Base | 86.05 | 85.21 | batch_size = 64, 길이 = 128, epoch = 3 |
| 어니베이스 | 85.92 | 84.47 | batch_size = 64, 길이 = 128, epoch = 3 |
| Roberta-Large | 85.68 | 85.20 | batch_size = 8, 길이 = 128, epoch = 3 |
| xlnet-mid | 79.81 | 77.85 | batch_size = 32, 길이 = 128, epoch = 3 |
| Albert-Xlarge | 85.21 | 84.21 | batch_size = 16, 길이 = 128, epoch = 3 |
| 앨버트 타이티 | 82.04 | 80.76 | batch_size = 64, 길이 = 128, epoch = 5 |
| Roberta-WWM-EXT | 85.31 | 84.02 | batch_size = 64, 길이 = 128, epoch = 3 |
| Roberta-WWM-Large-Ext | 86.34 | 84.90 | batch_size = 16, 길이 = 128, epoch = 3 |
| 모델 | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|
| 버트베이스 | 95.38 | batch_size = 16, 길이 = 256, epoch = 5, lr = 2e-5 |
| Bert-WWM-EXT-Base | 95.26 | batch_size = 16, 길이 = 256, epoch = 5, lr = 2e-5 |
| 어니베이스 | 95.17 | batch_size = 16, 길이 = 256, epoch = 5, lr = 2e-5 |
| Roberta-Large | 96.07 | batch_size = 8, 길이 = 256, epoch = 5, lr = 2e-5 |
| xlnet-mid | 92.11 | batch_size = 8, 길이 = 256, epoch = 5, lr = 2e-5 |
| Albert-Xlarge | 89.51 | batch_size = 16, 길이 = 256, epoch = 8, lr = 7e-5 |
| 앨버트베이스 | 92.47 | batch_size = 32, 길이 = 256, epoch = 8, lr = 5e-5 |
| 앨버트 타이티 | 84.77 | batch_size = 32, 길이 = 256, epoch = 8, lr = 5e-5 |
| Roberta-WWM-EXT | 95.06 | batch_size = 16, 길이 = 256, epoch = 5, lr = 2e-5 |
| Roberta-WWM-Large-Ext | 95.32 | batch_size = 8, 길이 = 256, epoch = 5, lr = 2e-5 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| Albert-Xlarge | 95.74 | 95.45 | batch_size = 32, 길이 = 512, epoch = 8 |
| 앨버트 타이티 | 92.63 | 93.54 | batch_size = 64, 길이 = 128, epoch = 5 |
| 버트베이스 | 95.28 | 95.35 | batch_size = 8, 길이 = 128, epoch = 3 |
| Bert-WWM-EXT-Base | 95.38 | 95.57 | batch_size = 8, 길이 = 128, epoch = 3 |
| 어니베이스 | 94.35 | 94.90 | batch_size = 16, 길이 = 256, epoch = 3 |
| Roberta-Large | 94.52 | 94.56 | batch_size = 2, 길이 = 256, epoch = 3 |
| xlnet-mid | 94.04 | 94.54 | batch_size = 16, 길이 = 128, epoch = 3 |
| Roberta-WWM-EXT | 95.59 | 95.52 | batch_size = 16, 길이 = 256, epoch = 3 |
| Roberta-WWM-Large-Ext | 96.10 | 95.93 | batch_size = 32, 길이 = 512, epoch = 8 |
| 모델 | 개발 세트 (DEV) | 테스트 세트 (테스트) | 훈련 매개 변수 |
|---|---|---|---|
| Albert-Xlarge | 61.94 | 61.34 | batch_size = 32, 길이 = 128, epoch = 3 |
| 앨버트 타이티 | 44.83 | 44.62 | batch_size = 32, 길이 = 256, epoch = 3 |
| 버트베이스 | 63.57 | 63.48 | batch_size = 32, 길이 = 128, epoch = 3 |
| Bert-WWM-EXT-Base | 63.83 | 63.75 | batch_size = 32, 길이 = 128, epoch = 3 |
| 어니베이스 | 61.75 | 61.80 | batch_size = 24, 길이 = 256, epoch = 3 |
| Roberta-Large | 63.80 | 63.91 | batch_size = 32, 길이 = 128, epoch = 3 |
| xlnet-mid | 60.16 | 60.04 | batch_size = 16, 길이 = 128, epoch = 3 |
| Roberta-WWM-EXT | 64.18 | - | batch_size = 16, 길이 = 128, epoch = 3 |
| Roberta-WWM-Large-Ext | 65.19 | 65.10 | batch_size = 32, 길이 = 128, epoch = 3 |
지정된 모델에서 특정 작업을 더 빨리 실행하는 데 도움이되는 "원 클릭"을 실행할 수있는 스크립트를 제공합니다.
BERT 모델에서 "BQ 지능형 고객 서비스 질문 일치"작업을 실행하는 예를 들어 run_classifier_ BQ .SH 스크립트를 중국어/기준/모델/ 버트 /바로 아래에서 실행할 수 있습니다.
cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.sh이 스크립트는 "BQ 지능형 고객 서비스 질문 일치"데이터 세트 (중국어/기준/접착제/ChineseGluedatasets/ BQ /Folder에 저장) 및 Bert 모델 (중국어/기준/모델/Bert/Prev_trained_model/)을 자동으로 다운로드합니다.
자세한 내용은 다음을 참조하십시오. 벤치 마크 모델 모델 교육

언어 모델링, 사전 훈련 또는 생성 작업 등에 사용할 수 있습니다. 데이터 볼륨은 10G를 초과하며 주요 부분은 NLP_CHINESE_CORPUS 프로젝트에서 비롯됩니다.
현재 코퍼스는 [사전 훈련 형식]으로 처리되며 여러 폴더를 포함합니다. 각 폴더의 크기는 4m 이하의 작은 파일이 많으며 파일 형식은 사전 훈련 형식을 충족합니다. 문장 당 한 줄은 문서 간의 빈 줄로 분리됩니다.
다음과 같은 하위 코퍼스 (총 14g 코퍼스)를 포함합니다.
1. 뉴스 기업 : 8G 기업은 총 2,000 개의 작은 파일로 두 개의 상단 및 하단으로 나뉩니다.
2. Community Interactive Corpus : 3G 텍스트가 포함 된 3G 코퍼스, 총 900 개 이상의 작은 파일이 있습니다.
3. Wikipedia : 약 300 개의 작은 파일을 포함하는 약 1.1g 텍스트.
4. 댓글 데이터 : 811 개의 작은 파일이 포함 된 약 2.3g 텍스트는 ChinesenlpCorpus의 여러 댓글 데이터를 병합하고 정리하고 형식을 변환하고 작은 파일로 분할하십시오.
데이터를 청소하고 위의 두 항목을 통해 형식을 변환하여 이러한 코퍼스를 얻을 수 있습니다.
또한 이메일 (ChineseGlue#163.com)을 통해 단일 프로젝트의 코퍼스를 얻고 코퍼스의 단위 또는 학교, 이름 및 목적을 알 수 있습니다.
ChineseGlue 프로젝트에 따라 모든 코퍼스를 얻으려면 ChineseGlue 조직의 회원이되어 (작은) 작업을 완료해야합니다.
1. 중국 최초의 중국 작업 벤치 마크 평가 창립 멤버
2. 중국 자연 언어 처리의 발전을 촉진하기 위해 다른 전문가들과 함께 기여할 수있어
3. 일부 작업에 참여한 후, 연구 목적으로 English Wiki & Bookcorpus와 동일한 대규모 사전 훈련 코퍼스를 구입하십시오.
4. 다양한 시험판 또는 미공개 버전을 포함하여 Art의 최첨단 훈련 된 모델 사용에 우선 순위가 부여됩니다.
ClueBenchmark#163.com에 이메일을 보내서 자신, 배경, 업무 또는 연구 방향, 조직 및 커뮤니티에 기여할 수있는 위치를 간단히 소개하십시오. 평가 후 연락 드리겠습니다.
1. 수집 및 광산 1 대표 데이터 세트, 일반적으로 분류 또는 문장-서식 작업 (추가 5 개의 데이터 세트가 필요합니다)
2. 읽기 이해력 과제는 문장 간 (예 : 단서 및 질문 또는 답변)으로 변환되어 평가됩니다. 데이터는 교육, 검증 및 테스트 세트로 분리되어야합니다.
3. 특정 작업 모델에 대한 교육 및 예측 방법 및 스크립트 (Pytorch 및 Keras 지원);
4. 현재 주류 모델 (예 : Bert/Bert_wwm_ext/Roberta/Albert/Ernie/Ernie2.0 등)의 경우 ChineseGlue 데이터 세트와 결합하여 정확도 테스트가 수행됩니다.
예를 들어 LCQMC 데이터 세트에서 XLNET-MID 테스트
5. 평가에 참여하는 모델이 있습니까?
6. 상륙 페이지 순위
7. 중국어 이해 평가 평가 벤치 마크 소개 (ChineseGlue)
8. 평가 시스템의 주요 기능 개발
2019-10-20 ~ 2019-12-31 : Beta 버전의 Beta 버전
2020.1.1 ~ 2020-12-31 : 중국어의 공식 버전
2021.1.1 ~ 2021-12-31 : Super Version of ChineseGlue
데이터 세트를 커뮤니티와 공유하거나 오늘 기여하십시오! Chineslue#163.com으로 이메일을 보내십시오.
또는 QQ 그룹에 가입 : 836811304
더 많은 자원 봉사자들이 서로 추가되고 있습니다. . .
https://aclanthology.org/2020.coling-main.419.bib 참조
1. 접착제 : 자연어 이해를위한 멀티 태스킹 벤치 마크 및 분석 플랫폼
2. SuperGlue : 일반적인 목적 언어 이해 시스템을위한 더 끈적 인 벤치 마크
3. LCQMC : 대규모 중국어 질문 일치 코퍼스
4. XNLI : 언어 간 문장 표현 평가
5. TNES : Toutiao-Text-Classfication-Dataset
6. NLP_CHINESE_CORPUS : NLP를위한 대규모 중국 코퍼스
7. Chinesenlpcorpus
8. Albert : 언어 표현에 대한 자기 감독 학습을위한 라이트 버트
9. Bert : 언어 이해를위한 깊은 양방향 변압기의 사전 훈련
10. Roberta : 강력하게 최적화 된 Bert 사전 계통 접근법