เกณฑ์มาตรฐานการประเมินภาษาสำหรับภาษาจีน: ชุดข้อมูล, พื้นฐาน, โมเดลที่ผ่านการฝึกอบรมมาก่อนคลังข้อมูลและลีดเดอร์บอร์ด
เกณฑ์มาตรฐานการประเมินความเข้าใจภาษาจีนรวมถึงชุดข้อมูลตัวแทนแบบจำลองเกณฑ์มาตรฐาน (pretrained) คลังข้อมูลและการจัดอันดับ
"อัปเดต, 22 พฤศจิกายน 2019"
1) [แนะนำ] เวอร์ชันใหม่, การสนับสนุนทางเทคนิคที่เป็นระบบ, ครอบคลุมและดีขึ้น, โยกย้ายที่อยู่ใหม่ : https://github.com/cluebenchmark/clue
2) เวอร์ชันคลาสสิกดั้งเดิมส่วนใหญ่มุ่งเน้นไปที่งานที่ใช้งานได้จริงเช่นการจำแนกประเภทหรืองานประโยคตามประโยคจะยังคงได้รับการเก็บรักษาและอัปเดตในโครงการนี้
เราจะเลือกชุดของชุดข้อมูลที่สอดคล้องกับงานตัวแทนบางอย่างเป็นชุดข้อมูลสำหรับเกณฑ์มาตรฐานการทดสอบของเรา ชุดข้อมูลเหล่านี้ครอบคลุมงานที่แตกต่างกันปริมาณข้อมูลและความยากลำบากในงาน
| แบบอย่าง | คะแนน | พารามิเตอร์ | tnews | LCQMC | xnli | ไม่ได้ผล | BQ | msraner | Thucnews | iflytekdata |
|---|---|---|---|---|---|---|---|---|---|---|
| เบิร์ตเบส | 84.57 | 108m | 89.78 | 86.9 | 77.8 | 82.7 | 85.08 | 95.38 | 95.35 | 63.57 |
| bert-wwm-ext | 84.89 | 108m | 89.81 | 87.3 | 78.7 | 83.46 | 85.21 | 95.26 | 95.57 | 63.83 |
| เออร์นี่เบส | 84.63 | 108m | 89.83 | 87.2 | 78.6 | 85.14 | 84.47 | 95.17 | 94.9 | 61.75 |
| Roberta-large | 85.08 | 334m | 89.91 | 87.2 | 79.9 | 84 | 85.2 | 96.07 | 94.56 | 63.8 |
| xlnet-mid | 81.07 | 209m | 86.26 | 85.98 | 78.7 | 84 | 77.85 | 92.11 | 94.54 | 60.16 |
| อัลเบิร์ต-xlarge | 84.08 | 59m | 88.3 | 86.76 | 74.0? | 82.4 | 84.21 | 89.51 | 95.45 | 61.94 |
| อัลเบิร์ต-ไทม์ | 78.22 | 1.8m | 87.1 | 85.4 | 68 | 81.4 | 80.76 | 84.77 | 93.54 | 44.83 |
| Roberta-wwm-ext | 84.55 | 108m | 89.79 | 86.33 | 79.28 | 82.28 | 84.02 | 95.06 | 95.52 | 64.18 |
| Roberta-WWM ขนาดใหญ่ | 85.13 | 330m | 90.11 | 86.82 | 80.04 | 82.78 | 84.9 | 95.32 | 95.93 | 65.19 |
DRCD & CMRC2018: สกัดความเข้าใจในการอ่าน (F1, EM); chid: สำนวนการอ่านแบบหลายคลาสการอ่าน (ACC); BQ: การจับคู่คำถามการบริการลูกค้าอัจฉริยะ (ACC); Msraner: การจดจำเอนทิตีการตั้งชื่อ (F1); iflytek: การจำแนกข้อความยาว (ACC);
คะแนนได้มาจากการคำนวณคะแนนเฉลี่ยของชุดข้อมูล 1-9 ชุด
| แบบอย่าง | คะแนน | พารามิเตอร์ | DRCD | CMRC2018 | การใช้ |
|---|---|---|---|---|---|
| เบิร์ตเบส | 79.08 | 108m | 85.49 | 69.72 | 82.04 |
| bert-wwm-ext | - | 108m | 87.15 | 73.23 | - |
| เออร์นี่เบส | - | 108m | 86.03 | 73.32 | - |
| Roberta-large | 83.32 | 334m | 89.35 | 76.11 | 84.5 |
| xlnet-mid | - | 209m | 83.28 | 66.51 | - |
| อัลเบิร์ต-xlarge | - | 59m | 89.78 | 75.22 | - |
| อัลเบิร์ต-xxlarge | - | - | - | - | - |
| อัลเบิร์ต-ไทม์ | - | 1.8m | 70.08 | 53.68 | - |
| Roberta-wwm-ext | 81.88 | 108m | 88.12 | 73.89 | 83.62 |
| Roberta-WWM ขนาดใหญ่ | 84.22 | 330m | 90.70 | 76.58 | 85.37 |
หมายเหตุ: เมื่อ F1 และ EM อยู่ร่วมกันในตัวบ่งชี้ข้างต้น EM จะถูกนำมาเป็นตัวบ่งชี้สุดท้าย
เพื่อให้บริการความเข้าใจภาษาจีนงานและอุตสาหกรรมได้ดีขึ้นเพื่อเป็นส่วนเสริมของการประเมินรูปแบบภาษาทั่วไปส่งเสริมการพัฒนาแบบจำลองภาษาจีนโดยการปรับปรุงโครงสร้างพื้นฐานการทำความเข้าใจภาษาจีน
*** 2019-10-13: เพิ่มเว็บไซต์อย่างเป็นทางการสำหรับการประเมินผล โมเดลพื้นฐาน inews ***
พอร์ทัลประเมินผล
ทำไมเราต้องใช้มาตรฐานสำหรับการประเมินความเข้าใจ Lanague จีน?
ก่อนอื่นภาษาจีนเป็นภาษาขนาดใหญ่ที่มีแอพพลิเคชั่นเฉพาะและกว้างขวาง
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
ประการที่สองเมื่อเทียบกับชุดข้อมูลภาษาอังกฤษมีชุดข้อมูลที่เปิดเผยต่อสาธารณะไม่กี่ชุดในภาษาจีน
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
อีกครั้งการทำความเข้าใจภาษาได้พัฒนาขึ้นสู่ขั้นตอนปัจจุบันและแบบจำลองที่ผ่านการฝึกอบรมมาก่อนได้ส่งเสริมการทำความเข้าใจภาษาธรรมชาติอย่างมาก
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
จากนั้นหากมีการทดสอบมาตรฐานสำหรับงานจีนรวมถึงชุดข้อมูลที่สามารถใช้และประเมินผลอย่างแพร่หลายโดยสาธารณะลักษณะของงานจีนที่ใช้บังคับและติดตามการพัฒนาเทคโนโลยีโลกในปัจจุบัน
能缓解当前中文任务的一些问题,并促进相关应用的发展。
เกณฑ์มาตรฐานการประเมินภาษาสำหรับภาษาจีน (จีน) ได้รับแนวคิดจากกาวซึ่งเป็นคอลเลกชันของ
ทรัพยากรสำหรับการฝึกอบรมการประเมินและการวิเคราะห์ระบบความเข้าใจภาษาธรรมชาติ Chineseglue ประกอบด้วย:
เกณฑ์มาตรฐานของประโยคหลายประโยคหรือประโยคการทำความเข้าใจภาษา ปัจจุบันชุดข้อมูลที่ใช้ในงานเหล่านี้มาจากสาธารณะ เราจะรวมชุดข้อมูลพร้อมชุดทดสอบส่วนตัวก่อนสิ้นปี 2562
กระดานผู้นำสาธารณะสำหรับการติดตามประสิทธิภาพ คุณจะสามารถส่งไฟล์การทำนายของคุณในงานเหล่านี้แต่ละงานจะได้รับการประเมินและให้คะแนนคะแนนสุดท้ายจะพร้อมใช้งาน
Baselines สำหรับงานภาษาจีน Baselines จะมีอยู่ใน Tensorflow, Pytorch, Keras และ Paddlepaddle
คลังข้อมูลดิบจำนวนมากสำหรับวัตถุประสงค์การวิจัยแบบจำลองภาษาหรือการสร้างแบบจำลองภาษา มันจะมีคลังข้อมูลดิบประมาณ 10 กรัมในปี 2562
ในช่วงครึ่งปีแรกของปี 2020 จะมีคลังข้อมูลดิบอย่างน้อย 30 กรัม ในตอนท้ายของปี 2020 เราจะรวมคลังข้อมูลดิบที่เพียงพอเช่น 100G ใหญ่พอที่คุณจะไม่จำเป็นต้องมีคลังข้อมูลดิบอีกต่อไปสำหรับการสร้างแบบจำลองภาษาโดยทั่วไป คุณสามารถใช้เพื่อวัตถุประสงค์ทั่วไปหรือการปรับโดเมนหรือแม้แต่สำหรับการสร้างข้อความ เมื่อคุณใช้สำหรับการปรับโดเมนคุณจะสามารถเลือกคลังข้อมูลที่คุณสนใจ
อินพุตคือสองประโยคและเอาต์พุตคือ 0 หรือ 1 โดยที่ 0 หมายถึงความหมายไม่คล้ายกันและ 1 หมายถึงความหมายคล้ายกัน
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办? [分隔符] 父母没钱买房子 [分隔符] 0
ชุดข้อมูลสำหรับความเข้าใจข้ามภาษาโดยได้รับหลักฐานและสมมติฐานกำหนดว่าสมมติฐานและหลักฐานนี้มีผลกระทบความขัดแย้งและความสัมพันธ์ที่เป็นกลางหรือไม่
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
ชุดข้อมูลความเข้าใจ Delta Reading (DRCD) (https://github.com/drcknowledgeteam/drcd) เป็นชุดข้อมูลการอ่านและความเข้าใจของจีนแบบดั้งเดิม ชุดข้อมูลนี้คาดว่าจะเป็นชุดข้อมูลการอ่านและการทำความเข้าใจภาษาจีนมาตรฐานที่เหมาะสมสำหรับการเรียนรู้การย้ายถิ่นฐาน
数据量:训练集(8,016个段落,26,936个问题),验证集(1,000个段落,3,524个问题),测试集(1,000个段落,3,493个问题)
例子:
{
"version": "1.3",
"data": [
{
"title": "基督新教",
"id": "2128",
"paragraphs": [
{
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
"id": "2128-2",
"qas": [
{
"id": "2128-2-1",
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
"answers": [
{
"id": "1",
"text": "因信稱義",
"answer_start": 92
}
]
},
{
"id": "2128-2-2",
"question": "哪本經典為新教的最高權威?",
"answers": [
{
"id": "1",
"text": "聖經",
"answer_start": 105
}
]
}
]
}
]
}
]
}
รูปแบบข้อมูลเหมือนกับทีม หากคุณใช้แบบจำลองภาษาจีนที่ง่ายขึ้นสำหรับการประเมินผลคุณสามารถเปลี่ยนเป็นแบบง่าย (มีโครงการนี้แล้ว)
https://hfl-rc.github.io/cmrc2018/
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消费者信心指数由什么机构发布?",
"answers": [
"工商协进会",
"工商协进会",
"工商协进会"
]
}
]
}
]
}
รูปแบบข้อมูลเหมือนกับทีม
ชุดข้อมูลนี้เป็นคำถามอัตโนมัติและคำตอบระบบคลังข้อมูลที่มีทั้งหมด 120,000 คู่และทำเครื่องหมายด้วยค่าความคล้ายคลึงกันของคู่ประโยคโดยมีค่า 0 หรือ 1 (0 หมายถึงความแตกต่าง 1 หมายถึงคล้ายกัน) มีปัญหาเช่นการพิมพ์ผิดและไวยากรณ์ที่ผิดปกติในข้อมูล แต่อยู่ใกล้กับสถานการณ์อุตสาหกรรมมากขึ้น
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!! [分隔符] 1
มีข้อมูลการระบุตัวตนและการติดฉลากของจีนมากกว่า 50,000 รายการ (รวมถึงชื่อบุคคลชื่อสถานที่และชื่อองค์กร) ในชุดข้อมูลนี้ซึ่งแสดงโดย NR, NS และ NT ตามลำดับและหน่วยงานอื่น ๆ จะแสดงโดย O
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
ชุดข้อมูลนี้มีข้อมูลฉลากข้อความยาวที่ใช้ข่าวภาษาจีนมากกว่า 40,000 รายการมีทั้งหมด 14 หมวดหมู่: "กีฬา": 0, "ความบันเทิง": 1, "home": 2, "ลอตเตอรี": 3, "อสังหาริมทรัพย์": 4, "การศึกษา": 5, "แฟชั่น": 6, "กิจการปัจจุบัน": 7.
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
มีข้อมูลข้อความยาวกว่า 17,000 รายการเกี่ยวกับคำอธิบายแอปพลิเคชันแอปพลิเคชันในชุดข้อมูลนี้รวมถึงหัวข้อแอปพลิเคชันต่าง ๆ ที่เกี่ยวข้องกับชีวิตประจำวันโดยมีทั้งหมด 119 หมวดหมู่: "แท็กซี่": 0, "การนำทางแผนที่": 1, "ฟรี wifi": 2, "รถเช่า": 3, .... , "หญิง": 115, "
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265
สำนวนนั้นปิดบังในช่องว่างและสำนวนมากมายในข้อความถูกสวมหน้ากากและผู้สมัครมีคำพ้องความหมาย
数据量:训练集(84,709),验证集(3,218),测试集(3,231)
例子:
{
"content": [
# 文段0
"……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。",
# 文段1
"在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。",
# 文段2
"最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……",
# 文段3
"“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。",
# 文段4
"从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。",
# 文段5
"……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
"candidates": [
"百尺竿头",
"随波逐流",
"方兴未艾",
"身体力行",
"一日千里",
"三十而立",
"逆水行舟",
"日新月异",
"百花齐放",
"沧海一粟"
]
}
ข้อมูล Chinesemnli แปลงข้อมูล MNLI ดั้งเดิมเป็นภาษาจีนและภาษาอังกฤษ ข้อมูลมาจากนิยายโทรศัพท์การเดินทางรัฐบาลกระดานชนวน ฯลฯ และใช้เพื่อตัดสินความสัมพันธ์ระหว่างสองประโยคที่ได้รับโดยนัยเป็นกลางและขัดแย้ง
数据量:train(391,783),matched(9336),mismatched(8,870)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}
มีการเพิ่มชุดข้อมูลเพิ่มเติมหากคุณมีชุดข้อมูลที่กำหนดไว้อย่างดีโปรดติดต่อเรา
หรือใช้คำสั่ง:
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| อัลเบิร์ต-xlarge | 88.30 | 88.30 | batch_size = 32, ความยาว = 128, epoch = 3 |
| เบิร์ตเบส | 89.80 | 89.78 | batch_size = 32, ความยาว = 128, epoch = 3 |
| bert-wwm-ext-base | 89.88 | 89.81 | batch_size = 32, ความยาว = 128, epoch = 3 |
| เออร์นี่เบส | 89.77 | 89.83 | batch_size = 32, ความยาว = 128, epoch = 3 |
| Roberta-large | 90.00 | 89.91 | batch_size = 16, ความยาว = 128, epoch = 3 |
| xlnet-mid | 86.14 | 86.26 | batch_size = 32, ความยาว = 128, epoch = 3 |
| Roberta-wwm-ext | 89.82 | 89.79 | batch_size = 32, ความยาว = 128, epoch = 3 |
| Roberta-WWM-large-ext | 90.05 | 90.11 | batch_size = 16, ความยาว = 128, epoch = 3 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| อัลเบิร์ต-xlarge | 74.0? | 74.0? | batch_size = 64, ความยาว = 128, epoch = 2 |
| เบิร์ตเบส | 77.80 | 77.80 | batch_size = 64, ความยาว = 128, epoch = 2 |
| bert-wwm-ext-base | 79.4 | 78.7 | batch_size = 64, ความยาว = 128, epoch = 2 |
| เออร์นี่เบส | 79.7 | 78.6 | batch_size = 64, ความยาว = 128, epoch = 2 |
| Roberta-large | 80.2 | 79.9 | batch_size = 64, ความยาว = 128, epoch = 2 |
| xlnet-mid | 79.2 | 78.7 | batch_size = 64, ความยาว = 128, epoch = 2 |
| Roberta-wwm-ext | 79.56 | 79.28 | batch_size = 64, ความยาว = 128, epoch = 2 |
| Roberta-WWM-large-ext | 80.20 | 80.04 | batch_size = 16, ความยาว = 128, epoch = 2 |
หมายเหตุ: Albert-Xlarge ยังมีปัญหาในการฝึกอบรมเกี่ยวกับงาน XNLI
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| อัลเบิร์ต-xlarge | 89.00 | 86.76 | batch_size = 64, ความยาว = 128, epoch = 3 |
| เบิร์ตเบส | 89.4 | 86.9 | batch_size = 64, ความยาว = 128, epoch = 3 |
| bert-wwm-ext-base | 89.1 | 87.3 | batch_size = 64, ความยาว = 128, epoch = 3 |
| เออร์นี่เบส | 89.8 | 87.2 | batch_size = 64, ความยาว = 128, epoch = 3 |
| Roberta-large | 89.9 | 87.2 | batch_size = 64, ความยาว = 128, epoch = 3 |
| xlnet-mid | 86.14 | 85.98 | batch_size = 64, ความยาว = 128, epoch = 3 |
| Roberta-wwm-ext | 89.08 | 86.33 | batch_size = 64, ความยาว = 128, epoch = 3 |
| Roberta-WWM-large-ext | 89.79 | 86.82 | batch_size = 16, ความยาว = 128, epoch = 3 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| อัลเบิร์ต-xlarge | 81.80 | 82.40 | batch_size = 32, ความยาว = 512, epoch = 8 |
| เบิร์ตเบส | 81.29 | 82.70 | batch_size = 16, ความยาว = 512, epoch = 3 |
| bert-wwm-ext-base | 81.93 | 83.46 | batch_size = 16, ความยาว = 512, epoch = 3 |
| เออร์นี่เบส | 84.50 | 85.14 | batch_size = 16, ความยาว = 512, epoch = 3 |
| Roberta-large | 81.90 | 84.00 | batch_size = 4, ความยาว = 512, epoch = 3 |
| xlnet-mid | 82.00 | 84.00 | batch_size = 8, ความยาว = 512, epoch = 3 |
| Roberta-wwm-ext | 82.98 | 82.28 | batch_size = 16, ความยาว = 512, epoch = 3 |
| Roberta-WWM-large-ext | 83.73 | 82.78 | batch_size = 4, ความยาว = 512, epoch = 3 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| เบิร์ตเบส | F1: 92.30 EM: 86.60 | F1: 91.46 EM: 85.49 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| bert-wwm-ext-base | F1: 93.27 EM: 88.00 | F1: 92.63 EM: 87.15 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| เออร์นี่เบส | F1: 92.78 EM: 86.85 | F1: 92.01 EM: 86.03 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| อัลเบิร์ตขนาดใหญ่ | F1: 93.90 EM: 88.88 | F1: 93.06 EM: 87.52 | batch = 32, ความยาว = 512, epoch = 3 lr = 2e-5 warmup = 0.05 |
| อัลเบิร์ต-xlarge | F1: 94.63 EM: 89.68 | F1: 94.70 EM: 89.78 | batch_size = 32, ความยาว = 512, epoch = 3 lr = 2.5e-5 อุ่นเครื่อง = 0.06 |
| อัลเบิร์ต-ไทม์ | F1: 81.51 EM: 71.61 | F1: 80.67 EM: 70.08 | batch = 32, ความยาว = 512, epoch = 3 lr = 2e-4 warmup = 0.1 |
| Roberta-large | F1: 94.93 EM: 90.11 | F1: 94.25 EM: 89.35 | batch = 32, ความยาว = 256, epoch = 2 lr = 3E-5 อุ่นเครื่อง = 0.1 |
| xlnet-mid | F1: 92.08 EM: 84.40 | F1: 91.44 EM: 83.28 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| Roberta-wwm-ext | F1: 94.26 EM: 89.29 | F1: 93.53 EM: 88.12 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| Roberta-WWM-large-ext | F1: 95.32 EM: 90.54 | F1: 95.06 EM: 90.70 | batch = 32, ความยาว = 512, epoch = 2 lr = 2.5E-5 อุ่นเครื่อง = 0.1 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| เบิร์ตเบส | F1: 85.48 EM: 64.77 | F1: 87.17 EM: 69.72 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| bert-wwm-ext-base | F1: 86.68 EM: 66.96 | F1: 88.78 EM: 73.23 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| เออร์นี่เบส | F1: 87.30 EM: 66.89 | F1: 89.62 EM: 73.32 | batch = 32, ความยาว = 512, epoch = 2 lr = 3e-5 warmup = 0.1 |
| อัลเบิร์ตขนาดใหญ่ | F1: 87.86 EM: 67.75 | F1: 90.17 EM: 73.66 | Epoch3, batch = 32, ความยาว = 512, LR = 2E-5, อุ่นเครื่อง = 0.05 |
| อัลเบิร์ต-xlarge | F1: 88.66 EM: 68.90 | F1: 90.92 EM: 75.22 | Epoch3, batch = 32, ความยาว = 512, LR = 2E-5, อุ่นเครื่อง = 0.1 |
| อัลเบิร์ต-ไทม์ | F1: 73.95 EM: 48.31 | F1: 75.73 EM: 53.68 | Epoch3, batch = 32, ความยาว = 512, LR = 2E-4, อุ่นเครื่อง = 0.1 |
| Roberta-large | F1: 88.61 EM: 69.94 | F1: 90.94 EM: 76.11 | Epoch2, batch = 32, ความยาว = 256, LR = 3E-5, อุ่นเครื่อง = 0.1 |
| xlnet-mid | F1: 85.63 EM: 65.31 | F1: 86.09 EM: 66.51 | Epoch2, batch = 32, ความยาว = 512, LR = 3E-5, อุ่นเครื่อง = 0.1 |
| Roberta-wwm-ext | F1: 87.28 EM: 67.89 | F1: 89.74 EM: 73.89 | Epoch2, batch = 32, ความยาว = 512, LR = 3E-5, อุ่นเครื่อง = 0.1 |
| Roberta-WWM-large-ext | F1: 89.42 EM: 70.59 | F1: 91.56 EM: 76.58 | Epoch2, batch = 32, ความยาว = 512, LR = 2.5E-5, อุ่นเครื่อง = 0.1 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| เบิร์ตเบส | 82.2 | 82.04 | batch = 24, ความยาว = 64, epoch = 3 lr = 2e-5 |
| bert-wwm-ext-base | - | - | - |
| เออร์นี่เบส | - | - | - |
| อัลเบิร์ตขนาดใหญ่ | - | - | - |
| อัลเบิร์ต-xlarge | - | - | - |
| อัลเบิร์ต-ไทม์ | - | - | - |
| Roberta-large | 85.31 | 84.5 | batch = 24, ความยาว = 64, epoch = 3 lr = 2e-5 |
| xlnet-mid | - | - | - |
| Roberta-wwm-ext | 83.78 | 83.62 | batch = 24, ความยาว = 64, epoch = 3 lr = 2e-5 |
| Roberta-WWM-large-ext | 85.81 | 85.37 | batch = 24, ความยาว = 64, epoch = 3 lr = 2e-5 |
| แบบอย่าง | ที่ได้เข้าคู่กัน | ที่ได้ถูกตัด | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| เบิร์ตเบส | 79.39 | 79.76 | batch = 32, ความยาว = 128, epoch = 3 lr = 2e-5 |
| bert-wwm-ext-base | 81.41 | 80.67 | batch = 32, ความยาว = 128, epoch = 3 lr = 2e-5 |
| เออร์นี่เบส | 79.65 | 80.70 | batch = 32, ความยาว = 128, epoch = 3 lr = 2e-5 |
| อัลเบิร์ต-xxlarge | - | - | - |
| อัลเบิร์ต-ไทม์ | 72.71 | 72.72 | batch = 32, ความยาว = 128, epoch = 3 lr = 2e-5 |
| Roberta-large | - | - | - |
| xlnet-mid | 78.15 | 76.93 | batch = 16, ความยาว = 128, epoch = 3 lr = 2e-5 |
| Roberta-wwm-ext | 81.09 | 81.38 | batch = 32, ความยาว = 128, epoch = 3 lr = 2e-5 |
| Roberta-WWM-large-ext | 83.4 | 83.42 | batch = 32, ความยาว = 128, epoch = 3 lr = 2e-5 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| เบิร์ตเบส | 85.86 | 85.08 | batch_size = 64, ความยาว = 128, epoch = 3 |
| bert-wwm-ext-base | 86.05 | 85.21 | batch_size = 64, ความยาว = 128, epoch = 3 |
| เออร์นี่เบส | 85.92 | 84.47 | batch_size = 64, ความยาว = 128, epoch = 3 |
| Roberta-large | 85.68 | 85.20 | batch_size = 8, ความยาว = 128, epoch = 3 |
| xlnet-mid | 79.81 | 77.85 | batch_size = 32, ความยาว = 128, epoch = 3 |
| อัลเบิร์ต-xlarge | 85.21 | 84.21 | batch_size = 16, ความยาว = 128, epoch = 3 |
| อัลเบิร์ต-ไทม์ | 82.04 | 80.76 | batch_size = 64, ความยาว = 128, epoch = 5 |
| Roberta-wwm-ext | 85.31 | 84.02 | batch_size = 64, ความยาว = 128, epoch = 3 |
| Roberta-WWM-large-ext | 86.34 | 84.90 | batch_size = 16, ความยาว = 128, epoch = 3 |
| แบบอย่าง | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|
| เบิร์ตเบส | 95.38 | batch_size = 16, ความยาว = 256, epoch = 5, lr = 2e-5 |
| bert-wwm-ext-base | 95.26 | batch_size = 16, ความยาว = 256, epoch = 5, lr = 2e-5 |
| เออร์นี่เบส | 95.17 | batch_size = 16, ความยาว = 256, epoch = 5, lr = 2e-5 |
| Roberta-large | 96.07 | batch_size = 8, ความยาว = 256, epoch = 5, lr = 2e-5 |
| xlnet-mid | 92.11 | batch_size = 8, ความยาว = 256, epoch = 5, lr = 2e-5 |
| อัลเบิร์ต-xlarge | 89.51 | batch_size = 16, ความยาว = 256, epoch = 8, lr = 7e-5 |
| แอลเบิร์ตเบส | 92.47 | batch_size = 32, ความยาว = 256, epoch = 8, lr = 5e-5 |
| อัลเบิร์ต-ไทม์ | 84.77 | batch_size = 32, ความยาว = 256, epoch = 8, lr = 5e-5 |
| Roberta-wwm-ext | 95.06 | batch_size = 16, ความยาว = 256, epoch = 5, lr = 2e-5 |
| Roberta-WWM-large-ext | 95.32 | batch_size = 8, ความยาว = 256, epoch = 5, lr = 2e-5 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| อัลเบิร์ต-xlarge | 95.74 | 95.45 | batch_size = 32, ความยาว = 512, epoch = 8 |
| อัลเบิร์ต-ไทม์ | 92.63 | 93.54 | batch_size = 64, ความยาว = 128, epoch = 5 |
| เบิร์ตเบส | 95.28 | 95.35 | batch_size = 8, ความยาว = 128, epoch = 3 |
| bert-wwm-ext-base | 95.38 | 95.57 | batch_size = 8, ความยาว = 128, epoch = 3 |
| เออร์นี่เบส | 94.35 | 94.90 | batch_size = 16, ความยาว = 256, epoch = 3 |
| Roberta-large | 94.52 | 94.56 | batch_size = 2, ความยาว = 256, epoch = 3 |
| xlnet-mid | 94.04 | 94.54 | batch_size = 16, ความยาว = 128, epoch = 3 |
| Roberta-wwm-ext | 95.59 | 95.52 | batch_size = 16, ความยาว = 256, epoch = 3 |
| Roberta-WWM-large-ext | 96.10 | 95.93 | batch_size = 32, ความยาว = 512, epoch = 8 |
| แบบอย่าง | ชุดพัฒนา (dev) | ชุดทดสอบ (ทดสอบ) | พารามิเตอร์การฝึกอบรม |
|---|---|---|---|
| อัลเบิร์ต-xlarge | 61.94 | 61.34 | batch_size = 32, ความยาว = 128, epoch = 3 |
| อัลเบิร์ต-ไทม์ | 44.83 | 44.62 | batch_size = 32, ความยาว = 256, epoch = 3 |
| เบิร์ตเบส | 63.57 | 63.48 | batch_size = 32, ความยาว = 128, epoch = 3 |
| bert-wwm-ext-base | 63.83 | 63.75 | batch_size = 32, ความยาว = 128, epoch = 3 |
| เออร์นี่เบส | 61.75 | 61.80 | batch_size = 24, ความยาว = 256, epoch = 3 |
| Roberta-large | 63.80 | 63.91 | batch_size = 32, ความยาว = 128, epoch = 3 |
| xlnet-mid | 60.16 | 60.04 | batch_size = 16, ความยาว = 128, epoch = 3 |
| Roberta-wwm-ext | 64.18 | - | batch_size = 16, ความยาว = 128, epoch = 3 |
| Roberta-WWM-large-ext | 65.19 | 65.10 | batch_size = 32, ความยาว = 128, epoch = 3 |
เราให้สคริปต์ที่สามารถเรียกใช้ "คลิกเดียว" เพื่อช่วยให้คุณรันงานเฉพาะเร็วขึ้นในรุ่นที่ระบุ
จากตัวอย่างการเรียกใช้งาน "การจับคู่การบริการลูกค้า BQ Intelligent Guesting" ในรุ่น Bert คุณสามารถเรียกใช้สคริปต์ Run_classifier_ BQ .sh โดยตรงภายใต้ ChineseGlue/Baselines/Models/ Bert /
cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.shสคริปต์จะดาวน์โหลดชุดข้อมูล "BQ Intelligent Customer Match Match" โดยอัตโนมัติ (บันทึกใน ChineseGlue/Baselines/Glue/Chinesegluedatasets/ BQ /Folder) และรุ่น Bert (บันทึกในภาษาจีน/baselines/models/bert/prev_trained_model/)
สำหรับรายละเอียดโปรดดูที่: การฝึกอบรมแบบจำลองโมเดลมาตรฐาน

สามารถใช้สำหรับการสร้างแบบจำลองภาษาการฝึกอบรมล่วงหน้าหรืองานสร้าง ฯลฯ ปริมาณข้อมูลเกิน 10 กรัมและส่วนหลักมาจากโครงการ NLP_CHINESE_CORPUS
คลังข้อมูลปัจจุบันถูกประมวลผลใน [รูปแบบการฝึกอบรมล่วงหน้า] และมีหลายโฟลเดอร์ แต่ละโฟลเดอร์มีไฟล์ขนาดเล็กจำนวนมากไม่เกิน 4M และรูปแบบไฟล์ตรงกับรูปแบบการฝึกอบรมก่อน: หนึ่งบรรทัดต่อประโยคคั่นด้วยเส้นเปล่าระหว่างเอกสาร
มี sub-corpus ต่อไปนี้ (ทั้งหมด 14G คลังข้อมูล):
1. ข่าว บริษัท : 8G Corporate แบ่งออกเป็นสองส่วนบนและส่วนล่างโดยมีไฟล์ขนาดเล็กทั้งหมด 2,000 ไฟล์
2. คลังข้อมูลของชุมชนอินเทอร์แอคทีฟ: 3G คลังข้อมูลที่มีข้อความ 3G มีไฟล์ขนาดเล็กมากกว่า 900 ไฟล์
3. Wikipedia: ข้อความประมาณ 1.1G มีไฟล์ขนาดเล็กประมาณ 300 ไฟล์
4. ข้อมูลความคิดเห็น: ข้อความประมาณ 2.3G ที่มีไฟล์ขนาดเล็ก 811, รวมข้อมูลความคิดเห็นหลายข้อมูลจาก Chinesenlpcorpus, สะอาด, แปลงรูปแบบและแบ่งออกเป็นไฟล์ขนาดเล็ก
คุณสามารถรับคลังข้อมูลเหล่านี้ได้โดยการทำความสะอาดข้อมูลและแปลงรูปแบบผ่านสองรายการข้างต้น
นอกจากนี้คุณยังสามารถรับคลังข้อมูลของโครงการเดียวผ่านทางอีเมล (Chineseglue#163.com) และแจ้งหน่วยหรือโรงเรียนชื่อและวัตถุประสงค์ของคลังข้อมูล
เพื่อให้ได้คลังข้อมูลทั้งหมดภายใต้โครงการ ChineseGlue คุณจะต้องเป็นสมาชิกขององค์กร ChineseGlue และทำภารกิจ (เล็ก) ให้เสร็จสมบูรณ์
1. สมาชิกผู้ก่อตั้งการประเมินเกณฑ์มาตรฐานงานจีนครั้งแรกของจีน
2. สามารถมีส่วนร่วมกับผู้เชี่ยวชาญอื่น ๆ เพื่อส่งเสริมการพัฒนาการประมวลผลภาษาธรรมชาติจีน
3. หลังจากเข้าร่วมในงานบางอย่างได้รับคลังการฝึกอบรมก่อนการฝึกอบรมขนาดใหญ่ที่ได้รับการทำความสะอาดและผ่านการฝึกอบรมมาก่อนซึ่งเหมือนกับ Wiki & Bookcorpus อังกฤษเพื่อวัตถุประสงค์ในการวิจัย
4. ลำดับความสำคัญคือการใช้รูปแบบการฝึกอบรมก่อนการฝึกอบรมของจีนของรัฐรวมถึงเวอร์ชันทดลองต่าง ๆ หรือเวอร์ชันที่ไม่ได้เผยแพร่
ส่งอีเมลไปที่ Cluebenchmark#163.com เพื่อแนะนำตัวคุณเองภูมิหลังการทำงานหรือทิศทางการวิจัยองค์กรของคุณและสถานที่ที่คุณสามารถมีส่วนร่วมในชุมชน เราจะติดต่อคุณหลังการประเมิน
1. รวบรวมและเหมือง 1 ชุดข้อมูลตัวแทนโดยทั่วไปจะเป็นงานการจำแนกประเภทหรือประโยคเป็นประโยค (จำเป็นต้องมีชุดข้อมูลเพิ่มเติม 5 ชุด)
2. งานความเข้าใจในการอ่านถูกเปลี่ยนเป็นประโยคต่องาน (เช่นเบาะแสและคำถามหรือคำตอบ) และประเมินผล ข้อมูลควรแบ่งออกเป็นชุดการฝึกอบรมการตรวจสอบและทดสอบ
3. วิธีการฝึกอบรมและการทำนายและสคริปต์สำหรับแบบจำลองงานเฉพาะ (รองรับ Pytorch และ Keras);
4. สำหรับรุ่นกระแสหลักปัจจุบัน (เช่น BERT/BERT_WWM_EXT/ROBERTA/Albert/Ernie/Ernie2.0 ฯลฯ ) รวมกับชุดข้อมูลภาษาจีนการทดสอบความแม่นยำ
ตัวอย่างเช่น: การทดสอบ XLNET-MID บนชุดข้อมูล LCQMC
5. มีแบบจำลองใดที่เข้าร่วมในการประเมินผลหรือไม่?
6. การจัดอันดับหน้า Landing Page
7. ความรู้เบื้องต้นเกี่ยวกับเกณฑ์มาตรฐานการประเมินความเข้าใจภาษาจีน (ChineseGlue)
8. การพัฒนาหน้าที่หลักของระบบการประเมินผล
2019-10-20 ถึง 2019-12-31: Chineseglue รุ่นเบต้า
2020.1.1 ถึง 2020-12-31: Chineseglue เวอร์ชันอย่างเป็นทางการ
2021.1.1 ถึง 2021-12-31: Chineseglue รุ่นสุดยอด
แบ่งปันชุดข้อมูลของคุณกับชุมชนหรือบริจาควันนี้! เพียงส่งอีเมลไปที่ ChineseGlue#163.com
หรือเข้าร่วมกลุ่ม QQ: 836811304
มีการเพิ่มอาสาสมัครมากขึ้นหลังจากนั้นอีก - -
ดู: https://aclanthology.org/2020.coling-main.419.bib
1. กาว: เกณฑ์มาตรฐานและแพลตฟอร์มการวิเคราะห์แบบหลายงานสำหรับการทำความเข้าใจภาษาธรรมชาติ
2. Superglue: มาตรฐาน Stickier สำหรับระบบทำความเข้าใจภาษาที่มีวัตถุประสงค์ทั่วไป
3. LCQMC: คำถามที่ตรงกันจีนขนาดใหญ่
4. XNLI: การประเมินการเป็นตัวแทนประโยคข้ามภาษา
5. TNES: Toutiao-text-classfication-dataset
6. NLP_CHINESE_CORPUS: คลังภาษาจีนขนาดใหญ่สำหรับ NLP
7. Chinesenlpcorpus
8. อัลเบิร์ต: Lite Bert สำหรับการเรียนรู้ด้วยตนเองของการเป็นตัวแทนภาษา
9. เบิร์ต: การฝึกอบรมหม้อแปลงสองทิศทางลึกเพื่อทำความเข้าใจภาษา
10. Roberta: วิธีการฝึกอบรมเบิร์ตที่ได้รับการปรับปรุงให้ดีที่สุด