中国語の言語理解評価ベンチマーク:データセット、ベースライン、事前に訓練されたモデル、コーパス、リーダーボード
代表的なデータセット、ベンチマーク(前)モデル、コーパス、ランキングなど、中国語理解評価ベンチマーク。
「更新、2019年11月22日」
1)[推奨]新しいバージョン、より体系的で包括的、より良い技術サポート、新しいアドレスを移行します:https://github.com/cluebenchmark/clue
2)主に分類や文からセンテンスへのタスクなどの実用的なタスクに焦点を当てたオリジナルのクラシックバージョンは、このプロジェクトで引き続き保持および更新されます
テストベンチマークのデータセットとして、特定の代表タスクに対応する一連のデータセットを選択します。これらのデータセットは、さまざまなタスク、データボリューム、およびタスクの難易度をカバーしています。
| モデル | スコア | パラメーター | tnews | LCQMC | xnli | イヌ | BQ | msraner | thucnews | iflytekdata |
|---|---|---|---|---|---|---|---|---|---|---|
| バートベース | 84.57 | 108m | 89.78 | 86.9 | 77.8 | 82.7 | 85.08 | 95.38 | 95.35 | 63.57 |
| bert-wwm-ext | 84.89 | 108m | 89.81 | 87.3 | 78.7 | 83.46 | 85.21 | 95.26 | 95.57 | 63.83 |
| アーニーベース | 84.63 | 108m | 89.83 | 87.2 | 78.6 | 85.14 | 84.47 | 95.17 | 94.9 | 61.75 |
| ロベルタ・ラージ | 85.08 | 334m | 89.91 | 87.2 | 79.9 | 84 | 85.2 | 96.07 | 94.56 | 63.8 |
| xlnet-mid | 81.07 | 209m | 86.26 | 85.98 | 78.7 | 84 | 77.85 | 92.11 | 94.54 | 60.16 |
| Albert-Xlarge | 84.08 | 59m | 88.3 | 86.76 | 74.0? | 82.4 | 84.21 | 89.51 | 95.45 | 61.94 |
| アルバート・タニー | 78.22 | 1.8m | 87.1 | 85.4 | 68 | 81.4 | 80.76 | 84.77 | 93.54 | 44.83 |
| roberta-wwm-ext | 84.55 | 108m | 89.79 | 86.33 | 79.28 | 82.28 | 84.02 | 95.06 | 95.52 | 64.18 |
| Roberta-WWM-Large | 85.13 | 330m | 90.11 | 86.82 | 80.04 | 82.78 | 84.9 | 95.32 | 95.93 | 65.19 |
DRCD&CMRC2018:抽出された読解力(F1、EM); CHID:IDIOM多分類読解力(ACC); BQ:インテリジェントなカスタマーサービスの質問マッチング(ACC); MSRANER:ネーミングエンティティ認識(F1); Iflytek:Long Text Classification(acc);
スコアは、1〜9のデータセットの平均スコアを計算することにより取得されます。
| モデル | スコア | パラメーター | DRCD | CMRC2018 | チッド |
|---|---|---|---|---|---|
| バートベース | 79.08 | 108m | 85.49 | 69.72 | 82.04 |
| bert-wwm-ext | - | 108m | 87.15 | 73.23 | - |
| アーニーベース | - | 108m | 86.03 | 73.32 | - |
| ロベルタ・ラージ | 83.32 | 334m | 89.35 | 76.11 | 84.5 |
| xlnet-mid | - | 209m | 83.28 | 66.51 | - |
| Albert-Xlarge | - | 59m | 89.78 | 75.22 | - |
| Albert-xxlarge | - | - | - | - | - |
| アルバート・タニー | - | 1.8m | 70.08 | 53.68 | - |
| roberta-wwm-ext | 81.88 | 108m | 88.12 | 73.89 | 83.62 |
| Roberta-WWM-Large | 84.22 | 330m | 90.70 | 76.58 | 85.37 |
注:上記のインジケータにF1とEMが共存する場合、EMは最終インジケータとしてとられます。
中国語の理解、タスク、産業を共通言語モデルの評価の補足としてよりよくサービスするために、中国語の理解インフラストラクチャを改善することにより、中国語モデルの開発を促進します。
*** 2019-10-13:評価のために公式ウェブサイトを追加しました。 INEWSベースラインモデル***
評価ポータル
なぜ中国のラナグを理解するためのベンチマークが必要なのですか?
まず第一に、中国語は独自の広範なアプリケーションを備えた大規模な言語です。
如中文使用人数近14亿,是联合国官方语言之一,产业界有大量的的朋友在做中文的任务。
中文是象形文字,有文字图形;字与字之间没有分隔符,不同的分词(分字或词)会影响下游任务。
第二に、英語のデータセットと比較して、中国語で公開されているデータセットは比較的少ないです。
很多数据集是非公开的或缺失基准测评的;多数的论文描述的模型是在英文数据集上做的测试和评估,那么对于中文效果如何?不得而知。
繰り返しになりますが、言語の理解は現在の段階まで発展しており、事前に訓練されたモデルは自然言語の理解を大いに促進しています。
不同的预训练模型相继产生,但不少最先进(state of the art)的模型,并没有官方的中文的版本,也没有对这些预训练模型在不同任务上的公开测试,
导致技术的发展和应用还有不少距离,或者说技术应用上的滞后。
次に、一般に広く使用および評価できるデータセットのバッチ、該当する中国のタスクの特性を含む、中国のタスクのベンチマークテストがある場合、世界のテクノロジーの現在の開発に追いつくことができます。
能缓解当前中文任务的一些问题,并促进相关应用的发展。
中国語の言語理解評価ベンチマーク(中国の接着剤)は、接着剤からアイデアを得ました。
自然言語理解システムのトレーニング、評価、分析のためのリソース。中国のglueは次のとおりです。
いくつかの文または文のペア言語理解タスクのベンチマーク。現在、これらのタスクで使用されているデータセットは公開されています。 2019年末までにプライベートテストセット付きのデータセットを含めます。
パフォーマンスを追跡するためのパブリックリーダーボード。これらのタスクで予測ファイルを送信することができ、各タスクが評価され、スコアが付けられ、最終スコアも利用可能になります。
チャイニーズグルータスクのベースライン。ベースラインは、Tensorflow、Pytorch、Keras、Paddlepaddleで利用できます。
事前トレインまたは言語モデリングの研究目的のための膨大な量の生のコーパス。 2019年には約10gのRAWコーパスが含まれます。
2020年の前半には、少なくとも30gの生のコーパスが含まれます。 2020年末までに、100gなどの十分な生のコーパスを含めるため、汎用言語モデリングのためにこれ以上生のコーパスは必要ありません。汎用またはドメインの適応、またはテキスト生成にも使用できます。ドメインの適応に使用すると、興味のあるコーパスを選択できます。
入力は2つの文であり、出力は0または1です。ここで、0はセマンティクスが類似していないことを意味し、1つはセマンティクスが類似していることを意味します。
数据量:训练集(238,766),验证集(8,802),测试集(12,500)
例子:
1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
2.飞行员没钱买房怎么办? [分隔符] 父母没钱买房子 [分隔符] 0
言語間理解のためのデータセットは、前提と仮定を考慮して、この仮定と前提が影響、反対、中立的な関係を持っているかどうかを決定します。
数据量:训练集(392,703),验证集(2,491),测试集(5,011)
例子:
1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令 [分隔符] entailment
原始的XNLI覆盖15种语言(含低资源语言)。我们选取其中的中文,并将做格式转换,使得非常容易进入训练和测试阶段。
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词
数据量:训练集(5,356),验证集(1,000),测试集(1,000)
例子:
1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来,九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标,努力办好人民满意教育,促进了义务教育均衡发展,农村贫困地区办学条件改善。目前,该市特色教育学校有70所 ......
每行为一条数据,以_!_分割的个字段,从前往后分别是情感类别,数据id,新闻标题,新闻内容
Delta Readhing Dataset(drcd)(https://github.com/drcknowledgeteam/drcd)は、一般的な伝統的な伝統的な中国のマシン読み取りと理解データセットです。このデータセットは、移転学習に適した標準的な中国の読書および理解データセットになると予想されます。
数据量:训练集(8,016个段落,26,936个问题),验证集(1,000个段落,3,524个问题),测试集(1,000个段落,3,493个问题)
例子:
{
"version": "1.3",
"data": [
{
"title": "基督新教",
"id": "2128",
"paragraphs": [
{
"context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義,如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等,但有別於天主教和東正教,新教在行政上沒有單一組織架構或領導,而且在教義上強調因信稱義、信徒皆祭司, 以聖經作為最高權威,亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同,但一致認同五個唯獨:唯獨恩典:人的靈魂得拯救唯獨是神的恩典,是上帝送給人的禮物。唯獨信心:人唯獨藉信心接受神的赦罪、拯救。唯獨基督:作為人類的代罪羔羊,耶穌基督是人與上帝之間唯一的調解者。唯獨聖經:唯有聖經是信仰的終極權威。唯獨上帝的榮耀:唯獨上帝配得讚美、榮耀",
"id": "2128-2",
"qas": [
{
"id": "2128-2-1",
"question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
"answers": [
{
"id": "1",
"text": "因信稱義",
"answer_start": 92
}
]
},
{
"id": "2128-2-2",
"question": "哪本經典為新教的最高權威?",
"answers": [
{
"id": "1",
"text": "聖經",
"answer_start": 105
}
]
}
]
}
]
}
]
}
データ形式はチームと同じです。評価のために単純化された中国モデルを使用する場合、それを簡素化することができます(このプロジェクトが提供されました)
https://hfl-rc.github.io/cmrc2018/
数据量:训练集(短文数2,403,问题数10,142),试验集(短文数256,问题数1,002),开发集(短文数848,问题数3,219)
例子:
{
"version": "1.0",
"data": [
{
"title": "傻钱策略",
"context_id": "TRIAL_0",
"context_text": "工商协进会报告,12月消费者信心上升到78.1,明显高于11月的72。另据《华尔街日报》报道,2013年是1995年以来美国股市表现最好的一年。这一年里,投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
"qas":[
{
"query_id": "TRIAL_0_QUERY_0",
"query_text": "什么是傻钱策略?",
"answers": [
"所谓的“傻钱”策略,其实就是买入并持有美国股票这样的普通组合",
"其实就是买入并持有美国股票这样的普通组合",
"买入并持有美国股票这样的普通组合"
]
},
{
"query_id": "TRIAL_0_QUERY_1",
"query_text": "12月的消费者信心指数是多少?",
"answers": [
"78.1",
"78.1",
"78.1"
]
},
{
"query_id": "TRIAL_0_QUERY_2",
"query_text": "消费者信心指数由什么机构发布?",
"answers": [
"工商协进会",
"工商协进会",
"工商协进会"
]
}
]
}
]
}
データ形式はチームと同じです
このデータセットは自動質問と回答システムのコーパスであり、合計120,000の文のペアがあり、文の類似性値がマークされ、値0または1(0は異なることを意味し、1は類似しています)。データにはタイプミスや不規則な文法などの問題がありますが、産業シナリオに近いです。
数据量:训练集(100,000),验证集(10,000),测试集(10,000)
例子:
1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
2.为什么我的还没有额度 [分隔符] 为啥没有额度!! [分隔符] 1
このデータセットには、それぞれNR、NS、およびNTで表され、他のエンティティはOで表されるこのデータセットには、50,000を超える中国の名前付きエンティティの識別とラベル付けデータ(個人名、地名、および組織名を含む)があります。
数据量:训练集(46,364),测试集(4,365)
例子:
1.据说/o 应/o 老友/o 之/o 邀/o ,/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o
このデータセットには、40,000を超える中国のニュースベースの長いテキストラベルデータがあり、合計14のカテゴリ:「スポーツ」:0、「エンターテインメント」:1、「ホーム」:2、「宝くじ」:3、「不動産」:4、「教育」:5、「ファッション」:6、「現在の問題」:7、「ゾディアック」:8、「ゲーム」: ":socity":10:10、 "10、" 10、 "10、" 10、 "oction
数据量:训练集(33,437),验证集(4,180),测试集(4,180)
例子:
11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用 爱国者MP5简介: "爱国者"北京华旗资讯,作为国内知名数码产品制>造商。1993年创立于北京中关村,是一家致力于......
每行为一条数据,以_!_分割的个字段,从前往后分别是 类别ID,类别名称,文本ID,文本内容。
このデータセットには、日常生活に関連するさまざまなアプリケーショントピックを含むアプリアプリケーションの説明に関する17,000を超える長いテキストがあります。合計119のカテゴリ:「タクシー」:0、「マップナビゲーション」:1、「無料wifi」:2、「レンタル」:3、....、「女性」:115、「ビジネス」:116、「117」:117、」
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫,自由度非常高,可以做很多你想做的事情......
每行为一条数据,以_!_分割字段,从前往后分别是 类别ID,类别名称,文本内容。
https://arxiv.org/abs/1906.01265
イディオムは空白に刻まれており、テキスト内の多くのイディオムがマスクされており、候補者には同義語が含まれています。
数据量:训练集(84,709),验证集(3,218),测试集(3,231)
例子:
{
"content": [
# 文段0
"……在热火22年的历史中,他们已经100次让对手得分在80以下,他们在这100次中都取得了胜利,今天他们希望能#idiom000378#再进一步。",
# 文段1
"在轻舟发展过程之中,是和业内众多企业那样走相似的发展模式,去#idiom000379#?还是迎难而上,另走一条与众不同之路。诚然,#idiom000380#远比随大流更辛苦,更磨难,更充满风险。但是有一条道理却是显而易见的:那就是水往低处流,随波逐流,永远都只会越走越低。只有创新,只有发展科技,才能强大自己。",
# 文段2
"最近十年间,虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言:到2050年,基于网络的虚拟货币将在某种程度上得到官方承认,成为能够流通的货币。现在看来,这一断言似乎还嫌过于保守……",
# 文段3
"“平时很少能看到这么多老照片,这次图片展把新旧照片对比展示,令人印象深刻。”现场一位参观者对笔者表示,大多数生活在北京的人都能感受到这个城市#idiom000382#的变化,但很少有人能具体说出这些变化,这次的图片展按照区域发展划分,展示了丰富的信息,让人形象感受到了60年来北京的变化和发展。",
# 文段4
"从今天大盘的走势看,市场的热点在反复的炒作之中,概念股的炒作#idiom000383#,权重股走势较为稳健,大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市,大盘今日蓄势震荡后,明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。",
# 文段5
"……其中,更有某纸媒借尤小刚之口指出“根据广电总局的这项要求,2009年的荧屏将很难出现#idiom000384#的情况,很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出,只能等到2010年了……"],
"candidates": [
"百尺竿头",
"随波逐流",
"方兴未艾",
"身体力行",
"一日千里",
"三十而立",
"逆水行舟",
"日新月异",
"百花齐放",
"沧海一粟"
]
}
Chinesemnliデータは、元のMNLIデータを中国語と英語で変換します。データは、フィクション、電話、旅行、政府、スレートなどに由来し、暗黙的で中立的で矛盾する2つの文の関係を判断するために使用されます。
数据量:train(391,783),matched(9336),mismatched(8,870)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}
明確に定義されたデータセットがある場合は、より多くのデータセットが追加されています。お問い合わせください。
またはコマンドを使用します。
wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| Albert-Xlarge | 88.30 | 88.30 | batch_size = 32、length = 128、epoch = 3 |
| バートベース | 89.80 | 89.78 | batch_size = 32、length = 128、epoch = 3 |
| bert-wwm-ext-base | 89.88 | 89.81 | batch_size = 32、length = 128、epoch = 3 |
| アーニーベース | 89.77 | 89.83 | batch_size = 32、length = 128、epoch = 3 |
| ロベルタ・ラージ | 90.00 | 89.91 | batch_size = 16、length = 128、epoch = 3 |
| xlnet-mid | 86.14 | 86.26 | batch_size = 32、length = 128、epoch = 3 |
| roberta-wwm-ext | 89.82 | 89.79 | batch_size = 32、length = 128、epoch = 3 |
| roberta-wwm-large-ext | 90.05 | 90.11 | batch_size = 16、length = 128、epoch = 3 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| Albert-Xlarge | 74.0? | 74.0? | batch_size = 64、length = 128、epoch = 2 |
| バートベース | 77.80 | 77.80 | batch_size = 64、length = 128、epoch = 2 |
| bert-wwm-ext-base | 79.4 | 78.7 | batch_size = 64、length = 128、epoch = 2 |
| アーニーベース | 79.7 | 78.6 | batch_size = 64、length = 128、epoch = 2 |
| ロベルタ・ラージ | 80.2 | 79.9 | batch_size = 64、length = 128、epoch = 2 |
| xlnet-mid | 79.2 | 78.7 | batch_size = 64、length = 128、epoch = 2 |
| roberta-wwm-ext | 79.56 | 79.28 | batch_size = 64、length = 128、epoch = 2 |
| roberta-wwm-large-ext | 80.20 | 80.04 | batch_size = 16、length = 128、epoch = 2 |
注:Albert-Xlarge、XNLIタスクでのトレーニングにはまだ問題があります。
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| Albert-Xlarge | 89.00 | 86.76 | batch_size = 64、length = 128、epoch = 3 |
| バートベース | 89.4 | 86.9 | batch_size = 64、length = 128、epoch = 3 |
| bert-wwm-ext-base | 89.1 | 87.3 | batch_size = 64、length = 128、epoch = 3 |
| アーニーベース | 89.8 | 87.2 | batch_size = 64、length = 128、epoch = 3 |
| ロベルタ・ラージ | 89.9 | 87.2 | batch_size = 64、length = 128、epoch = 3 |
| xlnet-mid | 86.14 | 85.98 | batch_size = 64、length = 128、epoch = 3 |
| roberta-wwm-ext | 89.08 | 86.33 | batch_size = 64、length = 128、epoch = 3 |
| roberta-wwm-large-ext | 89.79 | 86.82 | batch_size = 16、length = 128、epoch = 3 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| Albert-Xlarge | 81.80 | 82.40 | batch_size = 32、length = 512、epoch = 8 |
| バートベース | 81.29 | 82.70 | batch_size = 16、length = 512、epoch = 3 |
| bert-wwm-ext-base | 81.93 | 83.46 | batch_size = 16、length = 512、epoch = 3 |
| アーニーベース | 84.50 | 85.14 | batch_size = 16、length = 512、epoch = 3 |
| ロベルタ・ラージ | 81.90 | 84.00 | batch_size = 4、length = 512、epoch = 3 |
| xlnet-mid | 82.00 | 84.00 | batch_size = 8、length = 512、epoch = 3 |
| roberta-wwm-ext | 82.98 | 82.28 | batch_size = 16、length = 512、epoch = 3 |
| roberta-wwm-large-ext | 83.73 | 82.78 | batch_size = 4、length = 512、epoch = 3 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| バートベース | F1:92.30 EM:86.60 | F1:91.46 EM:85.49 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| bert-wwm-ext-base | F1:93.27 EM:88.00 | F1:92.63 EM:87.15 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| アーニーベース | F1:92.78 EM:86.85 | F1:92.01 EM:86.03 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| アルバート・ラージ | F1:93.90 EM:88.88 | F1:93.06 EM:87.52 | batch = 32、length = 512、epoch = 3 lr = 2e-5ウォームアップ= 0.05 |
| Albert-Xlarge | F1:94.63 EM:89.68 | F1:94.70 EM:89.78 | batch_size = 32、length = 512、epoch = 3 lr = 2.5e-5ウォームアップ= 0.06 |
| アルバート・タニー | F1:81.51 EM:71.61 | F1:80.67 EM:70.08 | batch = 32、length = 512、epoch = 3 lr = 2e-4ウォームアップ= 0.1 |
| ロベルタ・ラージ | F1:94.93 EM:90.11 | F1:94.25 EM:89.35 | batch = 32、length = 256、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| xlnet-mid | F1:92.08 EM:84.40 | F1:91.44 EM:83.28 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| roberta-wwm-ext | F1:94.26 EM:89.29 | F1:93.53 EM:88.12 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| roberta-wwm-large-ext | F1:95.32 EM:90.54 | F1:95.06 EM:90.70 | batch = 32、length = 512、epoch = 2 lr = 2.5e-5ウォームアップ= 0.1 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| バートベース | F1:85.48 EM:64.77 | F1:87.17 EM:69.72 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| bert-wwm-ext-base | F1:86.68 EM:66.96 | F1:88.78 EM:73.23 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| アーニーベース | F1:87.30 EM:66.89 | F1:89.62 EM:73.32 | batch = 32、length = 512、epoch = 2 lr = 3e-5ウォームアップ= 0.1 |
| アルバート・ラージ | F1:87.86 EM:67.75 | F1:90.17 EM:73.66 | epoch3、batch = 32、length = 512、lr = 2e-5、ウォームアップ= 0.05 |
| Albert-Xlarge | F1:88.66 EM:68.90 | F1:90.92 EM:75.22 | epoch3、batch = 32、length = 512、lr = 2e-5、ウォームアップ= 0.1 |
| アルバート・タニー | F1:73.95 EM:48.31 | F1:75.73 EM:53.68 | epoch3、batch = 32、length = 512、lr = 2e-4、warmup = 0.1 |
| ロベルタ・ラージ | F1:88.61 EM:69.94 | F1:90.94 EM:76.11 | epoch2、batch = 32、length = 256、lr = 3e-5、warmup = 0.1 |
| xlnet-mid | F1:85.63 EM:65.31 | F1:86.09 EM:66.51 | epoch2、batch = 32、length = 512、lr = 3e-5、warmup = 0.1 |
| roberta-wwm-ext | F1:87.28 EM:67.89 | F1:89.74 EM:73.89 | epoch2、batch = 32、length = 512、lr = 3e-5、warmup = 0.1 |
| roberta-wwm-large-ext | F1:89.42 EM:70.59 | F1:91.56 EM:76.58 | epoch2、batch = 32、length = 512、lr = 2.5e-5、ウォームアップ= 0.1 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| バートベース | 82.2 | 82.04 | batch = 24、length = 64、epoch = 3 lr = 2e-5 |
| bert-wwm-ext-base | - | - | - |
| アーニーベース | - | - | - |
| アルバート・ラージ | - | - | - |
| Albert-Xlarge | - | - | - |
| アルバート・タニー | - | - | - |
| ロベルタ・ラージ | 85.31 | 84.5 | batch = 24、length = 64、epoch = 3 lr = 2e-5 |
| xlnet-mid | - | - | - |
| roberta-wwm-ext | 83.78 | 83.62 | batch = 24、length = 64、epoch = 3 lr = 2e-5 |
| roberta-wwm-large-ext | 85.81 | 85.37 | batch = 24、length = 64、epoch = 3 lr = 2e-5 |
| モデル | 一致した | 誤った | トレーニングパラメーター |
|---|---|---|---|
| バートベース | 79.39 | 79.76 | batch = 32、length = 128、epoch = 3 lr = 2e-5 |
| bert-wwm-ext-base | 81.41 | 80.67 | batch = 32、length = 128、epoch = 3 lr = 2e-5 |
| アーニーベース | 79.65 | 80.70 | batch = 32、length = 128、epoch = 3 lr = 2e-5 |
| Albert-xxlarge | - | - | - |
| アルバート・タニー | 72.71 | 72.72 | batch = 32、length = 128、epoch = 3 lr = 2e-5 |
| ロベルタ・ラージ | - | - | - |
| xlnet-mid | 78.15 | 76.93 | batch = 16、length = 128、epoch = 3 lr = 2e-5 |
| roberta-wwm-ext | 81.09 | 81.38 | batch = 32、length = 128、epoch = 3 lr = 2e-5 |
| roberta-wwm-large-ext | 83.4 | 83.42 | batch = 32、length = 128、epoch = 3 lr = 2e-5 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| バートベース | 85.86 | 85.08 | batch_size = 64、length = 128、epoch = 3 |
| bert-wwm-ext-base | 86.05 | 85.21 | batch_size = 64、length = 128、epoch = 3 |
| アーニーベース | 85.92 | 84.47 | batch_size = 64、length = 128、epoch = 3 |
| ロベルタ・ラージ | 85.68 | 85.20 | batch_size = 8、length = 128、epoch = 3 |
| xlnet-mid | 79.81 | 77.85 | batch_size = 32、length = 128、epoch = 3 |
| Albert-Xlarge | 85.21 | 84.21 | batch_size = 16、length = 128、epoch = 3 |
| アルバート・タニー | 82.04 | 80.76 | batch_size = 64、length = 128、epoch = 5 |
| roberta-wwm-ext | 85.31 | 84.02 | batch_size = 64、length = 128、epoch = 3 |
| roberta-wwm-large-ext | 86.34 | 84.90 | batch_size = 16、length = 128、epoch = 3 |
| モデル | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|
| バートベース | 95.38 | batch_size = 16、length = 256、epoch = 5、lr = 2e-5 |
| bert-wwm-ext-base | 95.26 | batch_size = 16、length = 256、epoch = 5、lr = 2e-5 |
| アーニーベース | 95.17 | batch_size = 16、length = 256、epoch = 5、lr = 2e-5 |
| ロベルタ・ラージ | 96.07 | batch_size = 8、length = 256、epoch = 5、lr = 2e-5 |
| xlnet-mid | 92.11 | batch_size = 8、length = 256、epoch = 5、lr = 2e-5 |
| Albert-Xlarge | 89.51 | batch_size = 16、length = 256、epoch = 8、lr = 7e-5 |
| アルバートベース | 92.47 | batch_size = 32、length = 256、epoch = 8、lr = 5e-5 |
| アルバート・タニー | 84.77 | batch_size = 32、length = 256、epoch = 8、lr = 5e-5 |
| roberta-wwm-ext | 95.06 | batch_size = 16、length = 256、epoch = 5、lr = 2e-5 |
| roberta-wwm-large-ext | 95.32 | batch_size = 8、length = 256、epoch = 5、lr = 2e-5 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| Albert-Xlarge | 95.74 | 95.45 | batch_size = 32、length = 512、epoch = 8 |
| アルバート・タニー | 92.63 | 93.54 | batch_size = 64、length = 128、epoch = 5 |
| バートベース | 95.28 | 95.35 | batch_size = 8、length = 128、epoch = 3 |
| bert-wwm-ext-base | 95.38 | 95.57 | batch_size = 8、length = 128、epoch = 3 |
| アーニーベース | 94.35 | 94.90 | batch_size = 16、length = 256、epoch = 3 |
| ロベルタ・ラージ | 94.52 | 94.56 | batch_size = 2、length = 256、epoch = 3 |
| xlnet-mid | 94.04 | 94.54 | batch_size = 16、length = 128、epoch = 3 |
| roberta-wwm-ext | 95.59 | 95.52 | batch_size = 16、length = 256、epoch = 3 |
| roberta-wwm-large-ext | 96.10 | 95.93 | batch_size = 32、length = 512、epoch = 8 |
| モデル | 開発セット(開発) | テストセット(テスト) | トレーニングパラメーター |
|---|---|---|---|
| Albert-Xlarge | 61.94 | 61.34 | batch_size = 32、length = 128、epoch = 3 |
| アルバート・タニー | 44.83 | 44.62 | batch_size = 32、length = 256、epoch = 3 |
| バートベース | 63.57 | 63.48 | batch_size = 32、length = 128、epoch = 3 |
| bert-wwm-ext-base | 63.83 | 63.75 | batch_size = 32、length = 128、epoch = 3 |
| アーニーベース | 61.75 | 61.80 | batch_size = 24、length = 256、epoch = 3 |
| ロベルタ・ラージ | 63.80 | 63.91 | batch_size = 32、length = 128、epoch = 3 |
| xlnet-mid | 60.16 | 60.04 | batch_size = 16、length = 128、epoch = 3 |
| roberta-wwm-ext | 64.18 | - | batch_size = 16、length = 128、epoch = 3 |
| roberta-wwm-large-ext | 65.19 | 65.10 | batch_size = 32、length = 128、epoch = 3 |
「ワンクリック」を実行して、特定のモデルで特定のタスクをより速く実行できるようにすることができるスクリプトを提供します。
BERTモデルで「BQインテリジェントカスタマーサービスの質問マッチング」タスクを実行する例を使用して、run_classifier_ bq .shスクリプトを中国の接着剤/ベースライン/モデル/ bert /で直接実行できます。
cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.shスクリプトは、「BQ Intelligent Customer Serviceの質問マッチ」データセット(中国の接着剤/ベースライン/接着剤/中国語の接着剤/ BQ /フォルダーで保存)とBERTモデル(中国語/ベースライン/モデル/bert/prev_trained_model/)を自動的にダウンロードします。
詳細については、ベンチマークモデルモデルトレーニングを参照してください

言語モデリング、トレーニング前または生成タスクなどに使用できます。データのボリュームは10gを超え、主な部分はnlp_chinese_corpusプロジェクトから来ています
現在のコーパスは[トレーニング前の形式]で処理され、複数のフォルダーが含まれています。各フォルダーには4mサイズ以下の多くの小さなファイルがあり、ファイル形式は、ドキュメント間の空白行で区切られた、文ごとに1行のトレーニング前の形式を満たしています。
次のサブコルパス(合計14Gコーパス)が含まれています。
1。ニュースコーポレート:8Gコーポレート、2つの上部と下部に分割され、合計2,000の小さなファイルがあります。
2。コミュニティインタラクティブコーパス:3Gテキストを含む3Gコーパス、合計900を超える小さなファイルを含む。
3。Wikipedia:約300個の小さなファイルを含む約1.1gのテキスト。
4。コメントデータ:811の小さなファイルを含む約2.3gのテキストは、ChinesEnlpCorpusの複数のコメントデータをマージし、形式をクリーン、変換し、小さなファイルに分割します。
データをクリーニングし、上記の2つの項目からフォーマットを変換することにより、これらのコーパスを取得できます。
また、電子メール(中国語#163.com)を介して単一のプロジェクトのコーパスを取得し、コーパスのユニットまたは学校、名前、目的に通知することもできます。
中国の接着プロジェクトの下ですべてのコーパスを取得するには、中国の接着剤組織のメンバーになり、(小さな)タスクを完了する必要があります。
1。中国の最初の中国のタスクベンチマーク評価の創設メンバー
2。中国の自然言語加工の開発を促進するために他の専門家と一緒に貢献できるようにしてください
3。いくつかの作業に参加した後、研究目的で、英語のwiki&bookcorpusと同じクリーニングと事前訓練を受けた大規模なトレーニング前のコーパスを入手してください。
4。さまざまな試用版や未発表のバージョンを含む、最先端の中国の事前訓練を受けたモデルの使用を優先します。
Cluebenchmark#163.comにメールを送信して、自分自身、背景、仕事または研究の方向性、組織、およびコミュニティに貢献できる自己紹介を簡単に紹介します。評価後、ご連絡いたします。
1.収集と鉱山1代表データセット、一般的に分類または文からセンテンスへのタスク(追加の5つのデータセットが必要です)
2。読解タスクは、文とタスク(手がかりや質問や回答など)に変換され、評価されます。データは、トレーニング、検証、テストセットに分割する必要があります。
3.特定のタスクモデルのトレーニングと予測方法とスクリプト(PytorchとKerasをサポート)。
4。現在の主流モデル(BERT/BERT_WWM_EXT/ROBERTA/ALBERT/ERNIE/ERNIE2.0など)の場合、中国の接着剤データセットと組み合わせて、精度テストが実行されます。
たとえば、LCQMCデータセットでのXLNET-MIDテスト
5.評価に参加するモデルはありますか?
6。ランキングランディングページ
7。中国語の理解評価ベンチマーク(中国の接着剤)の紹介
8。評価システムの主な機能の開発
2019-10-20から2019-12-31:中国の接着剤のベータ版
2020.1.1〜2020-12-31:中国語の公式バージョン
2021.1.1から2021-12-31:中国の接着剤のスーパーバージョン
データセットをコミュニティと共有するか、今日貢献してください!中国の接着剤#163.comにメールを送信するだけです。
またはQQグループに参加:836811304
より多くのボランティアが次々に追加されています。 。 。
参照:https://aclanthology.org/2020.coling-main.419.bib
1。接着剤:自然言語理解のためのマルチタスクベンチマークおよび分析プラットフォーム
2。スーパーグロー:汎用言語理解システムのためのより粘着性のベンチマーク
3。LCQMC:コーパスに一致する大規模な中国の質問
4。Xnli:言語間文の表現の評価
5。TNES:Toutiao-Text-Classfication-Dataset
6。NLP_CHINESE_CORPUS:NLPの大規模中国のコーパス
7。CHINESENLPCORPUS
8。アルバート:言語表現の自己監視学習のためのライトバート
9。BERT:言語理解のための深い双方向変圧器の事前訓練
10。Roberta:堅牢に最適化されたBert Pretrainingアプローチ