ChineseGLUE Download - ChineseGLUE Quellcode -Code Download

Chinesischkleber

Bewertungsbenchmark für Sprachverständnisse für Chinese: Datensätze, Baselines, vorgebildete Modelle, Korpus und Rangliste

Bewertungsbenchmarks für chinesisches Sprachverständnis, einschließlich repräsentativer Datensätze, Benchmark -Modelle (vorbereitete) Modelle, Korpus und Ranglisten.

"Aktualisiert, 22. November 2019"

1) [Empfohlen] Neue Version, systematischerer, umfassenderer und besserer technischer Unterstützung, migrieren Sie die neue Adresse : https://github.com/cluebenchmark/clue

2) Die ursprüngliche klassische Version, die sich hauptsächlich auf praktische Aufgaben wie Klassifizierung oder Satz-zu-Vernichtungsaufgaben konzentriert, wird in diesem Projekt weiterhin beibehalten und aktualisiert

Wir werden eine Reihe von Datensätzen auswählen, die bestimmten repräsentativen Aufgaben als Datensatz für unseren Test -Benchmark entsprechen. Diese Datensätze decken verschiedene Aufgaben, Datenvolumen und Aufgabenschwierigkeiten ab.

Chinesische Aufgabenbenchmark-Bewertung (Chinesekleber) -leaderboard

Ranking -Listen aktualisieren regelmäßig Datenquellen: www.cluebenchmarks.com

Klassifizierungsaufgaben (VO -Version, erste Version)

Modell	Punktzahl	Parameter	Tnews	LCQMC	Xnli	Inews	Bq	Msraner	Thucnews	Iflytekdata
Bert-Base	84,57	108 m	89.78	86,9	77,8	82.7	85.08	95.38	95.35	63,57
Bert-wwm-ot	84.89	108 m	89,81	87,3	78,7	83.46	85.21	95.26	95,57	63,83
Ernie-Base	84.63	108 m	89,83	87,2	78,6	85.14	84.47	95.17	94.9	61.75
Roberta-Large	85.08	334 m	89.91	87,2	79,9	84	85.2	96.07	94.56	63,8
XLNET-MID	81.07	209m	86.26	85,98	78,7	84	77,85	92.11	94.54	60.16
Albert-Xlarge	84.08	59m	88.3	86,76	74.0?	82.4	84.21	89,51	95.45	61.94
Albert-Tiny	78,22	1,8 m	87.1	85.4	68	81.4	80.76	84.77	93.54	44,83
Roberta-wwm-text	84,55	108 m	89.79	86.33	79,28	82.28	84.02	95.06	95,52	64.18
Roberta-wwm-large	85.13	330 m	90.11	86,82	80.04	82.78	84.9	95.32	95.93	65.19

DRCD & CMRC2018: Extrahiertes Leseverständnis (F1, EM); Chid: Idiom Multi-Classification Reading Verständnis (ACC); BQ: Intelligente Kundendienstfragestellung (ACC); MSRANER: Erkennung von Entitätsnamen (F1); Iflytek: Long Text Classification (ACC);

Die Bewertung wird erhalten, indem die durchschnittlichen Bewertungen von 1-9 Datensätzen berechnet werden.

Leseverständnisaufgabe

Modell	Punktzahl	Parameter	DRCD	CMRC2018	Chid
Bert-Base	79.08	108 m	85.49	69.72	82.04
Bert-wwm-ot	- -	108 m	87.15	73,23	- -
Ernie-Base	- -	108 m	86.03	73,32	- -
Roberta-Large	83.32	334 m	89,35	76.11	84,5
XLNET-MID	- -	209m	83.28	66,51	- -
Albert-Xlarge	- -	59m	89.78	75,22	- -
Albert-Xxlarge	- -	- -	- -	- -	- -
Albert-Tiny	- -	1,8 m	70.08	53,68	- -
Roberta-wwm-text	81.88	108 m	88.12	73,89	83.62
Roberta-wwm-large	84.22	330 m	90.70	76,58	85.37

HINWEIS: Wenn F1 und EM in den obigen Indikatoren koexistieren, wird EM als endgültiger Indikator angesehen.

Chinesischkleber -Positionierung Vision

Um dem chinesischen Sprachverständnis, Aufgaben und Industrie als Ergänzung zur Bewertung des gemeinsamen Sprachmodells besser zu dienen, fördern Sie die Entwicklung chinesischer Sprachmodelle, indem die Infrastruktur des chinesischen Sprachverständnisses verbessert wird.

*** 2019-10-13: Eine offizielle Website zur Bewertung hinzugefügt; Inews Basismodell ***

Bewertungsportal

Warum brauchen wir einen Benchmark für die chinesische Bewertung des Verständnisses von Lanague?

Warum brauchen wir einen Benchmark für chinesische Aufgaben?

Zunächst ist Chinese eine große Sprache mit eigenen und umfangreichen Anwendungen.

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。
中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

Zweitens gibt es im Vergleich zu englischen Datensätzen relativ wenige öffentlich verfügbare Datensätze auf Chinesisch.

 很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

Auch hier hat sich das Sprachverständnis in der aktuellen Stufe entwickelt, und vorgeborene Modelle haben das Verständnis der natürlichen Sprache stark gefördert.

 不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，
 导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。

Wenn dann ein Benchmark -Test für chinesische Aufgaben vorhanden ist, einschließlich einer Reihe von Datensätzen, die von der Öffentlichkeit weit verbreitet und bewertet werden können, die Merkmale der anwendbaren chinesischen Aufgaben und mit der aktuellen Entwicklung der Welttechnologie Schritt halten.

 能缓解当前中文任务的一些问题，并促进相关应用的发展。

Benchmark-Test des Inhalts des chinesischen Aufgaben-in-in-in-In-Inhalts-Systems

Bewertung des Sprachverständnisses für Chinese (Chinese Clue) erhalten Ideen von Glue, eine Sammlung von

Ressourcen für das Training, die Bewertung und Analyse natürlicher Sprachverständnisse. Chinesischkleber besteht aus:

1) Benchmark -Test chinesischer Aufgaben, die mehrere Sprachaufgaben in unterschiedlichem Maße abdecken

Ein Maßstab mehrerer Satz- oder Satzpaaren Sprachverständnisaufgaben. Derzeit stammen die in diesen Aufgaben verwendeten Datensätze aus der Öffentlichkeit. Wir werden Datensätze mit privatem Testsatz vor Ende 2019 einbeziehen.

2) Öffentliche Rangliste

Eine öffentliche Rangliste für die Verfolgung der Leistung. Sie können Ihre Vorhersagedateien zu diesen Aufgaben einreichen. Jede Aufgabe wird ausgewertet und bewertet, ein Endergebnis ist ebenfalls verfügbar.

3) Basismodell, einschließlich des Startcode und des vorgebildeten Modells

Basislinien für Chinesekleberaufgaben. Baselines werden in Tensorflow, Pytorch, Keras und Paddlepaddle erhältlich sein.

4) Korpus für Sprachmodellierung, Vorausbildung oder generative Aufgaben

Eine riesige Menge an Rohkorpus für Forschungszwecke vor dem Training oder der Sprachmodellierung. Es wird 2019 rund 10 g Raw Corpus enthalten.

Im ersten Halbjahresjahr von 2020 wird es mindestens 30 g Raw Corpus enthalten. Bis Ende 2020 werden wir genügend Rohkorpus wie 100 g aufnehmen, so groß genug, dass Sie keine Rohkorpus mehr für die Modellierung des Allzweck -Sprache benötigen. Sie können es für allgemeine Zwecke oder Domänenanpassung oder sogar für die Textgenerierung verwenden. Wenn Sie zur Domänenanpassung verwenden, können Sie Corpus, an denen Sie interessiert sind, auswählen.

Einführung von Datensätzen

1. Semantische Ähnlichkeitsaufgabe für LCQMC Umgangssprachbeschreibungen Semantische Ähnlichkeitsaufgabe

Der Eingang besteht aus zwei Sätzen und die Ausgabe ist 0 oder 1. Wobei 0 bedeutet, dass die Semantik nicht ähnlich ist und 1 bedeutet, dass die Semantik ähnlich ist.

    数据量：训练集(238,766)，验证集(8,802)，测试集(12,500)
    例子： 
     1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
     2.飞行员没钱买房怎么办？ [分隔符] 父母没钱买房子 [分隔符] 0

2. xnli Sprachinferenz Aufgabe natürliche Sprache Inferenz

Ein Datensatz für das Verständnis des Verständnisses für das Verständnis und Annahme, dass diese Annahme und Prämisse Auswirkungen, Oppositionen und neutrale Beziehungen haben.

    数据量：训练集(392,703)，验证集(2,491)，测试集(5,011)
    例子： 
     1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
     2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令  [分隔符] entailment
    
    原始的XNLI覆盖15种语言（含低资源语言）。我们选取其中的中文，并将做格式转换，使得非常容易进入训练和测试阶段。

3. Tnews Toutiao Chinesische Nachrichten (kurze Text) Klassifizierung Kurzer Text klassifiziert für Nachrichten

    数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
    例子：
    6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
    每行为一条数据，以_!_分割的个字段，从前往后分别是 新闻ID，分类code，分类名称，新闻字符串（仅含标题），新闻关键词

4

    数据量：训练集(5,356)，验证集(1,000)，测试集(1,000)     
    例子：
    1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来，九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标，努力办好人民满意教育，促进了义务教育均衡发展，农村贫困地区办学条件改善。目前，该市特色教育学校有70所 ......
    每行为一条数据，以_!_分割的个字段，从前往后分别是情感类别，数据id，新闻标题，新闻内容

5.DRCD Traditionelles chinesisches Leseverständnis Aufgabe Lesung Verständnis für traditionelle Chinesen

Delta Reading Verständnis Dataset (DRCD) (https://github.com/drcKnowledgeTeam/drcd) ist eine allgemeine traditionelle chinesische Maschine, die den Datensatz liest und versteht. Es wird erwartet, dass dieser Datensatz ein Standard für das Lesen und Verständnis von Standard -Datensatzen für Umzugslernen ist.

数据量：训练集(8,016个段落，26,936个问题)，验证集(1,000个段落，3,524个问题)，测试集(1,000个段落，3,493个问题)  
例子：
{
  "version": "1.3",
  "data": [
    {
      "title": "基督新教",
      "id": "2128",
      "paragraphs": [
        {
          "context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義，如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等，但有別於天主教和東正教，新教在行政上沒有單一組織架構或領導，而且在教義上強調因信稱義、信徒皆祭司， 以聖經作為最高權威，亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同，但一致認同五個唯獨：唯獨恩典：人的靈魂得拯救唯獨是神的恩典，是上帝送給人的禮物。唯獨信心：人唯獨藉信心接受神的赦罪、拯救。唯獨基督：作為人類的代罪羔羊，耶穌基督是人與上帝之間唯一的調解者。唯獨聖經：唯有聖經是信仰的終極權威。唯獨上帝的榮耀：唯獨上帝配得讚美、榮耀",
          "id": "2128-2",
          "qas": [
            {
              "id": "2128-2-1",
              "question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
              "answers": [
                {
                  "id": "1",
                  "text": "因信稱義",
                  "answer_start": 92
                }
              ]
            },
            {
              "id": "2128-2-2",
              "question": "哪本經典為新教的最高權威?",
              "answers": [
                {
                  "id": "1",
                  "text": "聖經",
                  "answer_start": 105
                }
              ]
            }
          ]
        }
      ]
    }
  ]
}

Das Datenformat ist das gleiche wie der Squad. Wenn Sie ein vereinfachtes chinesisches Modell zur Bewertung verwenden, können Sie es in vereinfachtes Umwandeln (dieses Projekt wurde bereitgestellt).

6.CMRC2018 Leseverständnis für vereinfachtes Chinesisch

https://hfl-rc.github.io/cmrc2018/

数据量：训练集(短文数2,403，问题数10,142)，试验集(短文数256，问题数1,002)，开发集(短文数848，问题数3,219)  
例子：
{
  "version": "1.0",
  "data": [
    {
        "title": "傻钱策略",
        "context_id": "TRIAL_0",
        "context_text": "工商协进会报告，12月消费者信心上升到78.1，明显高于11月的72。另据《华尔街日报》报道，2013年是1995年以来美国股市表现最好的一年。这一年里，投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
        "qas":[
                {
                "query_id": "TRIAL_0_QUERY_0",
                "query_text": "什么是傻钱策略？",
                "answers": [
                     "所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合",
                     "其实就是买入并持有美国股票这样的普通组合",
                     "买入并持有美国股票这样的普通组合"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_1",
                "query_text": "12月的消费者信心指数是多少？",
                "answers": [
                    "78.1",
                    "78.1",
                    "78.1"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_2",
                "query_text": "消费者信心指数由什么机构发布？",
                "answers": [
                    "工商协进会",
                    "工商协进会",
                    "工商协进会"
                    ]
                }
            ]
        }
    ]
}

Das Datenformat ist das gleiche wie der Squad

7. BQ Intelligent Kundendienstfragestellung für den Kundendienst

Dieser Datensatz ist ein automatischer Frage- und Antwortsystemkorpus mit insgesamt 120.000 Satzpaaren und mit Satzpaar -Ähnlichkeitswerten mit dem Wert 0 oder 1 (0 bedeutet unähnlich, 1 bedeutet ähnlich). Es gibt Probleme wie Tippfehler und unregelmäßige Grammatik in den Daten, ist jedoch den industriellen Szenarien nahezu nahe.

    数据量：训练集(100,000)，验证集(10,000)，测试集(10,000)
    例子： 
     1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
     2.为什么我的还没有额度 [分隔符] 为啥没有额度！！ [分隔符] 1

8. MSRANER NAME -ENTEITUNGSRAWUNG

In diesem Datensatz befinden sich mehr als 50.000 chinesische Entitätspflicht- und Kennzeichnungsdaten (einschließlich Personennamen, Ortsnamen und Organisationsnamen), die durch NR, NS bzw. NT dargestellt werden, und andere Entitäten werden durch o dargestellt.

    数据量：训练集(46,364)，测试集(4,365)
    例子： 
     1.据说/o 应/o 老友/o 之/o 邀/o ，/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
     2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o

9. Thucnews lange Textklassifizierung

Dieser Datensatz enthält mehr als 40.000 chinesische Nachrichtenbasis-Long-Text-Label-Daten mit insgesamt 14 Kategorien: "Sport": 0, "Unterhaltung": 1, "Home": 2, "Lotterie": 3, "Immobilien": 4, "Bildung": 5, "Mode": 6, "Aktuelle Angelegenheiten": 7, "Zodiac": 8 ".

    数据量：训练集(33,437)，验证集(4,180)，测试集(4,180)
    例子： 
 11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用　　爱国者MP5简介:　　"爱国者"北京华旗资讯，作为国内知名数码产品制>造商。1993年创立于北京中关村，是一家致力于......
 每行为一条数据，以_!_分割的个字段，从前往后分别是 类别ID，类别名称，文本ID，文本内容。

10.Flytek lange Textklassifizierung

In diesem Datensatz gibt es mehr als 17.000 lange Textdaten über App-Anwendungsbeschreibungen, einschließlich verschiedener Anwendungsthemen im Zusammenhang mit dem täglichen Leben, mit insgesamt 119 Kategorien: "Taxi": 0, "Kartennavigation": 1, "Free WiFi": 2, "Autovermietung": 3, "weiblich": 115, 116, 116, "Cash Collection": 117, 117 ".

    数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
    例子： 
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫，自由度非常高，可以做很多你想做的事情......
每行为一条数据，以_!_分割字段，从前往后分别是 类别ID，类别名称，文本内容。

11.

https://arxiv.org/abs/1906.01265
Die Redewendung ist in den Lücken abzüglich und viele Redewendungen im Text sind maskiert und die Kandidaten enthalten Synonyme.

    数据量：训练集(84,709)，验证集(3,218)，测试集(3,231)
    例子：
    {
      "content": [
        # 文段0
        "……在热火22年的历史中，他们已经100次让对手得分在80以下，他们在这100次中都取得了胜利，今天他们希望能#idiom000378#再进一步。", 
        # 文段1
        "在轻舟发展过程之中，是和业内众多企业那样走相似的发展模式，去#idiom000379#？还是迎难而上，另走一条与众不同之路。诚然，#idiom000380#远比随大流更辛苦，更磨难，更充满风险。但是有一条道理却是显而易见的：那就是水往低处流，随波逐流，永远都只会越走越低。只有创新，只有发展科技，才能强大自己。", 
        # 文段2
        "最近十年间，虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言：到2050年，基于网络的虚拟货币将在某种程度上得到官方承认，成为能够流通的货币。现在看来，这一断言似乎还嫌过于保守……", 
        # 文段3
        "“平时很少能看到这么多老照片，这次图片展把新旧照片对比展示，令人印象深刻。”现场一位参观者对笔者表示，大多数生活在北京的人都能感受到这个城市#idiom000382#的变化，但很少有人能具体说出这些变化，这次的图片展按照区域发展划分，展示了丰富的信息，让人形象感受到了60年来北京的变化和发展。", 
        # 文段4
        "从今天大盘的走势看，市场的热点在反复的炒作之中，概念股的炒作#idiom000383#，权重股走势较为稳健，大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市，大盘今日蓄势震荡后，明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。", 
        # 文段5
        "……其中，更有某纸媒借尤小刚之口指出“根据广电总局的这项要求，2009年的荧屏将很难出现#idiom000384#的情况，很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出，只能等到2010年了……"],
      "candidates": [
        "百尺竿头", 
        "随波逐流", 
        "方兴未艾", 
        "身体力行", 
        "一日千里", 
        "三十而立", 
        "逆水行舟", 
        "日新月异", 
        "百花齐放", 
        "沧海一粟"
      ]
    }

12.Cmnli Language Inference Task Chinese Multi-Genre-NLI

Chinesemnli -Daten konvertiert die ursprünglichen MNLI -Daten in Chinesisch und Englisch. Die Daten stammen aus Fiktion, Telefon, Reisen, Regierung, Schiefer usw. und werden verwendet, um die Beziehung zwischen den angegebenen zwei impliziten, neutralen und widersprüchlichen Sätzen zu beurteilen.

    数据量：train(391,783)，matched(9336)，mismatched(8,870)
    例子：
    {"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}

13. Weitere Datensätze werden hinzugefügt und werden in Kürze gekommen!

Weitere Datensätze werden hinzugefügt. Wenn Sie einen genau definierten Datensatz haben, kontaktieren Sie uns bitte.

Datensatz Download insgesamt Download

Oder verwenden Sie den Befehl:

 wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

Chinesische Aufgaben -Benchmark -Bewertung (ChineseGlue) - Ranking - Vergleich jeder Aufgabenbewertung des Datensatzes für verschiedene Modelle

Tnews Short Text Classificaiton für Nachrichten (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Albert-Xlarge	88.30	88.30	batch_size = 32, Länge = 128, epoch = 3
Bert-Base	89,80	89.78	batch_size = 32, Länge = 128, epoch = 3
Bert-wwm-text-Base	89,88	89,81	batch_size = 32, Länge = 128, epoch = 3
Ernie-Base	89.77	89,83	batch_size = 32, Länge = 128, epoch = 3
Roberta-Large	90.00	89.91	batch_size = 16, länge = 128, epoch = 3
XLNET-MID	86.14	86.26	batch_size = 32, Länge = 128, epoch = 3
Roberta-wwm-text	89,82	89.79	batch_size = 32, Länge = 128, epoch = 3
Roberta-wwm-large-ot	90.05	90.11	batch_size = 16, länge = 128, epoch = 3

Xnli natürliche Sprache Inferenz (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Albert-Xlarge	74.0?	74.0?	batch_size = 64, länge = 128, epoch = 2
Bert-Base	77,80	77,80	batch_size = 64, länge = 128, epoch = 2
Bert-wwm-text-Base	79,4	78,7	batch_size = 64, länge = 128, epoch = 2
Ernie-Base	79,7	78,6	batch_size = 64, länge = 128, epoch = 2
Roberta-Large	80.2	79,9	batch_size = 64, länge = 128, epoch = 2
XLNET-MID	79,2	78,7	batch_size = 64, länge = 128, epoch = 2
Roberta-wwm-text	79,56	79,28	batch_size = 64, länge = 128, epoch = 2
Roberta-wwm-large-ot	80.20	80.04	batch_size = 16, länge = 128, epoch = 2

Hinweis: Albert-Xlarge gibt es immer noch Probleme beim Training bei XNLI-Aufgaben.

Semantische Ähnlichkeitsaufgabe (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Albert-Xlarge	89.00	86,76	batch_size = 64, länge = 128, epoch = 3
Bert-Base	89,4	86,9	batch_size = 64, länge = 128, epoch = 3
Bert-wwm-text-Base	89.1	87,3	batch_size = 64, länge = 128, epoch = 3
Ernie-Base	89,8	87,2	batch_size = 64, länge = 128, epoch = 3
Roberta-Large	89,9	87,2	batch_size = 64, länge = 128, epoch = 3
XLNET-MID	86.14	85,98	batch_size = 64, länge = 128, epoch = 3
Roberta-wwm-text	89.08	86.33	batch_size = 64, länge = 128, epoch = 3
Roberta-wwm-large-ot	89.79	86,82	batch_size = 16, länge = 128, epoch = 3

Inews Sentiment Analysis für Internet News (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Albert-Xlarge	81.80	82.40	batch_size = 32, Länge = 512, epoch = 8
Bert-Base	81.29	82.70	batch_size = 16, länge = 512, epoch = 3
Bert-wwm-text-Base	81.93	83.46	batch_size = 16, länge = 512, epoch = 3
Ernie-Base	84,50	85.14	batch_size = 16, länge = 512, epoch = 3
Roberta-Large	81.90	84.00	batch_size = 4, länge = 512, epoch = 3
XLNET-MID	82.00	84.00	batch_size = 8, länge = 512, epoch = 3
Roberta-wwm-text	82.98	82.28	batch_size = 16, länge = 512, epoch = 3
Roberta-wwm-large-ot	83.73	82.78	batch_size = 4, länge = 512, epoch = 3

DRCD -Leseverständnis für traditionelle Chinesen (F1, EM):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Bert-Base	F1: 92.30 EM: 86.60	F1: 91,46 EM: 85,49	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Bert-wwm-text-Base	F1: 93,27 EM: 88.00	F1: 92.63 EM: 87.15	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Ernie-Base	F1: 92.78 EM: 86,85	F1: 92.01 EM: 86.03	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Albert-Large	F1: 93,90 EM: 88.88	F1: 93.06 EM: 87,52	Batch = 32, Länge = 512, epoch = 3 lr = 2E-5 Warmup = 0,05
Albert-Xlarge	F1: 94,63 EM: 89,68	F1: 94,70 EM: 89,78	batch_size = 32, Länge = 512, epoch = 3 lr = 2,5E-5 Warmup = 0,06
Albert-Tiny	F1: 81,51 EM: 71,61	F1: 80,67 EM: 70.08	Batch = 32, Länge = 512, epoch = 3 lr = 2E-4 Warmup = 0,1
Roberta-Large	F1: 94,93 EM: 90.11	F1: 94,25 EM: 89,35	Batch = 32, Länge = 256, epoch = 2 lr = 3E-5wärme = 0,1
XLNET-MID	F1: 92.08 EM: 84,40	F1: 91,44 EM: 83,28	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Roberta-wwm-text	F1: 94,26 EM: 89,29	F1: 93,53 EM: 88.12	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Roberta-wwm-large-ot	F1: 95,32 EM: 90,54	F1: 95.06 EM: 90.70	Batch = 32, Länge = 512, epoch = 2 lr = 2,5E-5 Warmup = 0,1

CMRC2018 Leseverständnis Leseverständnis für vereinfachte Chinesen (F1, EM):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Bert-Base	F1: 85,48 EM: 64,77	F1: 87,17 EM: 69,72	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Bert-wwm-text-Base	F1: 86,68 EM: 66,96	F1: 88,78 EM: 73,23	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Ernie-Base	F1: 87.30 EM: 66,89	F1: 89,62 EM: 73,32	Batch = 32, Länge = 512, epoch = 2 lr = 3E-5wärme = 0,1
Albert-Large	F1: 87,86 EM: 67,75	F1: 90,17 EM: 73,66	EPOCH3, Batch = 32, Länge = 512, LR = 2E-5, Warmup = 0,05
Albert-Xlarge	F1: 88,66 EM: 68,90	F1: 90,92 EM: 75,22	EPOCH3, Batch = 32, Länge = 512, LR = 2E-5, Warmup = 0,1
Albert-Tiny	F1: 73,95 EM: 48.31	F1: 75,73 EM: 53,68	EPOCH3, Batch = 32, Länge = 512, LR = 2E-4, Warmup = 0,1
Roberta-Large	F1: 88,61 EM: 69,94	F1: 90,94 EM: 76.11	Epoch2, Batch = 32, Länge = 256, LR = 3E-5, Warmup = 0,1
XLNET-MID	F1: 85,63 EM: 65,31	F1: 86.09 EM: 66,51	Epoch2, Batch = 32, Länge = 512, LR = 3E-5, Warmup = 0,1
Roberta-wwm-text	F1: 87,28 EM: 67,89	F1: 89,74 EM: 73,89	Epoch2, Batch = 32, Länge = 512, LR = 3E-5, Warmup = 0,1
Roberta-wwm-large-ot	F1: 89,42 EM: 70,59	F1: 91,56 EM: 76,58	epoch2, batch = 32, Länge = 512, LR = 2,5E-5, Warmup = 0,1

Chid Idiom Reading Verständnis Füllen Sie den chinesischen Idiom -Datensatz für Blässe für den Thalmungstest (Genauigkeit) aus:

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Bert-Base	82.2	82.04	Batch = 24, Länge = 64, epoch = 3 lr = 2e-5
Bert-wwm-text-Base	- -	- -	- -
Ernie-Base	- -	- -	- -
Albert-Large	- -	- -	- -
Albert-Xlarge	- -	- -	- -
Albert-Tiny	- -	- -	- -
Roberta-Large	85.31	84,5	Batch = 24, Länge = 64, epoch = 3 lr = 2e-5
XLNET-MID	- -	- -	- -
Roberta-wwm-text	83.78	83.62	Batch = 24, Länge = 64, epoch = 3 lr = 2e-5
Roberta-wwm-large-ot	85,81	85.37	Batch = 24, Länge = 64, epoch = 3 lr = 2e-5

CMNLI Chinese Natural Language Inferenz Chinese Multi-Genre-NLI (Genauigkeit):

Modell	angepasst	Fehlerhaft	Trainingsparameter
Bert-Base	79,39	79,76	Batch = 32, Länge = 128, epoch = 3 lr = 2E-5
Bert-wwm-text-Base	81.41	80.67	Batch = 32, Länge = 128, epoch = 3 lr = 2E-5
Ernie-Base	79,65	80.70	Batch = 32, Länge = 128, epoch = 3 lr = 2E-5
Albert-Xxlarge	- -	- -	- -
Albert-Tiny	72.71	72.72	Batch = 32, Länge = 128, epoch = 3 lr = 2E-5
Roberta-Large	- -	- -	- -
XLNET-MID	78.15	76,93	Batch = 16, Länge = 128, epoch = 3 lr = 2E-5
Roberta-wwm-text	81.09	81.38	Batch = 32, Länge = 128, epoch = 3 lr = 2E-5
Roberta-wwm-large-ot	83.4	83.42	Batch = 32, Länge = 128, epoch = 3 lr = 2E-5

BQ Intelligent Kundendienstfrage Übereinstimmung für den Kundendienst (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Bert-Base	85,86	85.08	batch_size = 64, länge = 128, epoch = 3
Bert-wwm-text-Base	86.05	85.21	batch_size = 64, länge = 128, epoch = 3
Ernie-Base	85,92	84.47	batch_size = 64, länge = 128, epoch = 3
Roberta-Large	85.68	85.20	batch_size = 8, länge = 128, epoch = 3
XLNET-MID	79,81	77,85	batch_size = 32, Länge = 128, epoch = 3
Albert-Xlarge	85.21	84.21	batch_size = 16, länge = 128, epoch = 3
Albert-Tiny	82.04	80.76	batch_size = 64, länge = 128, epoch = 5
Roberta-wwm-text	85.31	84.02	batch_size = 64, länge = 128, epoch = 3
Roberta-wwm-large-ot	86,34	84,90	batch_size = 16, länge = 128, epoch = 3

MSRANER NAME ENTITY ERKUNNION (F1):

Modell	Testsatz (Test)	Trainingsparameter
Bert-Base	95.38	batch_size = 16, Länge = 256, epoch = 5, lr = 2E-5
Bert-wwm-text-Base	95.26	batch_size = 16, Länge = 256, epoch = 5, lr = 2E-5
Ernie-Base	95.17	batch_size = 16, Länge = 256, epoch = 5, lr = 2E-5
Roberta-Large	96.07	batch_size = 8, länge = 256, epoch = 5, lr = 2e-5
XLNET-MID	92.11	batch_size = 8, länge = 256, epoch = 5, lr = 2e-5
Albert-Xlarge	89,51	batch_size = 16, Länge = 256, epoch = 8, LR = 7E-5
Albert-Base	92.47	batch_size = 32, Länge = 256, epoch = 8, LR = 5E-5
Albert-Tiny	84.77	batch_size = 32, Länge = 256, epoch = 8, LR = 5E-5
Roberta-wwm-text	95.06	batch_size = 16, Länge = 256, epoch = 5, lr = 2E-5
Roberta-wwm-large-ot	95.32	batch_size = 8, länge = 256, epoch = 5, lr = 2e-5

Thucnews lange Textklassifizierung (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Albert-Xlarge	95.74	95.45	batch_size = 32, Länge = 512, epoch = 8
Albert-Tiny	92.63	93.54	batch_size = 64, länge = 128, epoch = 5
Bert-Base	95.28	95.35	batch_size = 8, länge = 128, epoch = 3
Bert-wwm-text-Base	95.38	95,57	batch_size = 8, länge = 128, epoch = 3
Ernie-Base	94.35	94.90	batch_size = 16, länge = 256, epoch = 3
Roberta-Large	94.52	94.56	batch_size = 2, länge = 256, epoch = 3
XLNET-MID	94.04	94.54	batch_size = 16, länge = 128, epoch = 3
Roberta-wwm-text	95.59	95,52	batch_size = 16, länge = 256, epoch = 3
Roberta-wwm-large-ot	96.10	95.93	batch_size = 32, Länge = 512, epoch = 8

Iflytekdata Long Text Classification (Genauigkeit):

Modell	Entwicklungssatz (Dev)	Testsatz (Test)	Trainingsparameter
Albert-Xlarge	61.94	61.34	batch_size = 32, Länge = 128, epoch = 3
Albert-Tiny	44,83	44,62	batch_size = 32, Länge = 256, epoch = 3
Bert-Base	63,57	63,48	batch_size = 32, Länge = 128, epoch = 3
Bert-wwm-text-Base	63,83	63.75	batch_size = 32, Länge = 128, epoch = 3
Ernie-Base	61.75	61.80	batch_size = 24, Länge = 256, epoch = 3
Roberta-Large	63,80	63,91	batch_size = 32, Länge = 128, epoch = 3
XLNET-MID	60.16	60.04	batch_size = 16, länge = 128, epoch = 3
Roberta-wwm-text	64.18	- -	batch_size = 16, länge = 128, epoch = 3
Roberta-wwm-large-ot	65.19	65.10	batch_size = 32, Länge = 128, epoch = 3

Basismodell - Code -Startcodes für Baselines

Wir stellen Ihnen Skripte zur Verfügung, die "One-Click" ausgeführt werden können, damit Sie bestimmte Aufgaben bei bestimmten Modellen schneller ausführen können.

Wenn Sie das Beispiel für die Ausführung der Aufgabe "BQ Intelligent Customer Service Questing Matching" auf dem Bert -Modell ausführen, können Sie das Skript run_classifier_ bq .SH direkt unter chinesischem Blauen/Baselines/Models/ Bert /ausführen.

 cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.sh

Das Skript lädt automatisch den Datensatz "BQ Intelligent Customer Service -Frage überein" (speichern Sie in Chinesischkleber/Baselines/Kleber/chinesischGluedatasets/ BQ /Ordner) und das Bert -Modell (Speichern in Chinesischklebel/Baselines/Models/Bert/prev_trained_model/).

Weitere Informationen finden Sie unter: Benchmark-Modellmodell-Training

Open Evaluation Submission Portal: Ich möchte einreichen

Korpus für Langauge-Modellierung, Vorausbildung, Erzeugung von Aufgaben

Kann für Sprachmodellierung, Vorausbildung oder generative Aufgaben usw. verwendet werden

Das aktuelle Korpus wird im [Vorauslaufformat] verarbeitet und enthält mehrere Ordner. Jeder Ordner verfügt über viele kleine Dateien mit einer Größe von nicht mehr als 4 m, und das Dateiformat erfüllt das Vor-Training-Format: eine Zeile pro Satz, die durch leere Zeilen zwischen den Dokumenten getrennt ist.

Enthält den folgenden Sub-Corpus (insgesamt 14G-Korpus):

1. News Corporate: 8G Corporate, unterteilt in zwei obere und untere Teile mit insgesamt 2.000 kleinen Dateien.

2. Community Interactive Corpus: 3G Corpus mit 3G -Text mit insgesamt mehr als 900 kleinen Dateien.

3.. Wikipedia: ca. 1,1 g Text mit etwa 300 kleinen Dateien.

4. Kommentardaten: Etwa 2,3 g Text, mit 811 kleinen Dateien enthalten, mehrere Kommentardaten von Chinesenlpcorpus verschmelzen, reinigen, Formate konvertieren und in kleine Dateien aufgeteilt werden.

Sie können diesen Korpus erhalten, indem Sie die Daten reinigen und das Format über die beiden oben genannten Elemente konvertieren.

Sie können auch den Korpus eines einzelnen Projekts per E -Mail (Chinese Clue#163.com) erhalten und die Einheit oder die Schule, den Namen und den Zweck des Korpus informieren.

Um den gesamten Korpus im Rahmen des Chinesekleberprojekts zu erhalten, müssen Sie Mitglied der Chinese -Kleberorganisation werden und eine (kleine) Aufgabe erledigen.

Werden Sie Gründungsmitglied der Chinesischkleberorganisation

Sie werden in der Lage sein, Vorteile zu erhalten:

1. Gründungsmitglied der ersten chinesischen chinesischen Aufgaben -Benchmark -Bewertung

2.. In der Lage sein, zusammen mit anderen Fachleuten beizutragen, um die Entwicklung der chinesischen Verarbeitung natürlicher Sprache zu fördern

3. Nachdem Sie an einigen Arbeiten teilgenommen haben, erhalten Sie einen groß angelegten Vor-Training-Korpus, der für Forschungszwecke gereinigt und vorgebracht wurde, was dem englischen Wiki & Bookcorpus entspricht.

Wie man sich mit uns anschließt:

Senden Sie eine E -Mail an Cluebenchmark#163.com, um sich kurz vorzustellen, Ihren Hintergrund, Ihre Arbeit oder Ihre Forschungsrichtung, Ihre Organisation und dort, wo Sie zur Community beitragen können. Wir werden Sie nach der Bewertung kontaktieren.

Aufgabenliste TODO LISTE

1. Sammeln und Mine 1 Repräsentative Datensatz, im Allgemeinen eine Klassifizierung oder Satz-zu-Vernichtungsaufgabe (weitere 5 Datensätze sind erforderlich)

2. Die Aufgabe des Leseverständnisses wird in Satz-zu-Tasks (wie Hinweise und Fragen oder Antworten) umgewandelt und bewertet. Die Daten sollten in Trainings-, Überprüfungs- und Testsätze aufgeteilt werden.

4. Für aktuelle Mainstream -Modelle (z.

Zum Beispiel: XLNET-MID-Tests auf dem LCQMC-Datensatz

5. Gibt es Modelle, die an der Bewertung teilnehmen?

andere

6. Ranking -Zielseite

7. Einführung in das chinesische Verständnis der Bewertung des Verständnisses (Chinese Clue)

8. Entwicklung der Hauptfunktionen des Bewertungssystems

Zeitleistenzeitplan:

2019-10-20 bis 2019-12-31: Beta-Version von ChineseGlue

2020.1.1 bis 2020-12-31: Offizielle Version von Chinese Clue

2021.1.1 bis 2021-12-31: Superversion von ChineseGlue

Beitrag leisten Ihre Stärke ab heute bei

Teilen Sie Ihren Datensatz mit Community oder leisten Sie noch heute einen Beitrag! Senden Sie einfach eine E -Mail an chinesischkleber#163.com,

oder schließen Sie sich der QQ Group an: 836811304

Weitere Freiwillige werden nacheinander hinzugefügt. . .

Forschungsarbeiten mit Cloud -TPUs von Googles TensorFlow Research Cloud (TFRC) unterstützt

Wie zitiere ich uns?

Siehe: https://aclanthology.org/2020.coling-main.419.bib

Referenz:

1. Kleber: Eine Multi-Task-Benchmark- und Analyse-Plattform für das Verständnis der natürlichen Sprache

2. Sekundenkleber: Ein klebrigerer Benchmark für allgemeine Sprachverständnissysteme

3. LCQMC: Ein groß an

4. Xnli: Bewertung von regelwendigen Satzdarstellungen

5. Tnes: Toutiao-Text-Klasse-Dataset

6. nlp_chinese_corpus: großes chinesisches Korpus für NLP

7. Chinesenlpcorpus

8. Albert: Ein Lite Bert für das selbstbewertete Lernen von Sprachdarstellungen

9. Bert: Vorausbildung von tiefen bidirektionalen Transformatoren zum Sprachverständnis

10. Roberta: Ein robust optimierter Bert -Vorab -Ansatz

Expandieren