Загрузка ChineseGLUE - загрузка исходного кода ChineseGLUE

Китайский

Оценка языка понимание оценки для китайцев: наборы данных, базовые линии, предварительно обученные модели, корпус и таблица лидеров

Понимание китайского языка оценок, в том числе репрезентативные наборы данных, контрольные (предварительные) модели, корпус и рейтинги.

"Обновлено, 22 ноября 2019 г."

1) [Рекомендуется] Новая версия, более систематическая, всеобъемлющая и лучшая техническая поддержка, переносить новый адрес : https://github.com/cluebenchmark/clue

2) Оригинальная классическая версия, в основном сосредоточенная на практических задачах, таких как классификация или задачи предложения к предложению, будет продолжать сохраняться и обновляться в этом проекте

Мы выберем серию наборов данных, соответствующих определенным репрезентативным задачам в качестве набора данных для нашего тестового эталона. Эти наборы данных охватывают различные задачи, объем данных и сложность задачи.

Оценка эталона китайского задания (CilinaGlue) -Leaderboard

Списки рейтинга будут регулярно обновлять источники данных: www.cluebenchmarks.com

Задачи классификации (VO версия, первая версия)

Модель	Счет	параметр	Tnews	LCQMC	Xnli	Inews	Бк	MSRANER	Thucnews	iflytekdata
Берт-баз	84,57	108 м	89,78	86.9	77.8	82,7	85,08	95,38	95,35	63,57
Bert-WWM-Ext	84,89	108 м	89,81	87.3	78.7	83,46	85,21	95,26	95,57	63,83
Эрни-Баз	84,63	108 м	89,83	87.2	78.6	85,14	84,47	95,17	94,9	61.75
Роберта-Ларж	85,08	334M	89,91	87.2	79,9	84	85,2	96.07	94,56	63,8
XLnet-Mid	81.07	209 м	86.26	85,98	78.7	84	77,85	92.11	94,54	60.16
Альберт-Хларж	84,08	59 м	88.3	86.76	74,0?	82.4	84.21	89,51	95,45	61,94
Альберт-Нижний	78.22	1,8 м	87.1	85,4	68	81.4	80.76	84,77	93,54	44,83
Роберта-Вум-Экс	84,55	108 м	89,79	86.33	79,28	82,28	84,02	95.06	95,52	64.18
Роберта-Вум-Лардж	85,13	330 м	90.11	86.82	80.04	82,78	84,9	95,32	95,93	65.19

DRCD & CMRC2018: извлеченное понимание прочитанного (F1, EM); Chid: идиома многоклассификационное понимание прочитанного (ACC); BQ: интеллектуальное сопоставление вопросов обслуживания клиентов (ACC); MSRANER: признание именования сущности (F1); Iflytek: Long Text Classification (ACC);

Оценка получается путем расчета средних баллов 1-9 наборов данных;

Задача понимания прочитанного

Модель	Счет	параметр	DRCD	CMRC2018	Чид
Берт-баз	79,08	108 м	85,49	69,72	82.04
Bert-WWM-Ext	-	108 м	87.15	73,23	-
Эрни-Баз	-	108 м	86.03	73,32	-
Роберта-Ларж	83,32	334M	89,35	76.11	84,5
XLnet-Mid	-	209 м	83,28	66.51	-
Альберт-Хларж	-	59 м	89,78	75,22	-
Albert-xxlarge	-	-	-	-	-
Альберт-Нижний	-	1,8 м	70.08	53,68	-
Роберта-Вум-Экс	81.88	108 м	88.12	73,89	83,62
Роберта-Вум-Лардж	84,22	330 м	90.70	76.58	85,37

Примечание. Когда F1 и EM сосуществуют в приведенных выше индикаторах, EM принимается в качестве окончательного индикатора.

Китайское положение позиционирования видения

Чтобы лучше служить пониманию китайского языка, задачи и промышленность, как дополнение к оценке модели общего языка, способствуют развитию моделей китайского языка, улучшая инфраструктуру понимания китайского языка.

*** 2019-10-13: добавил официальный веб-сайт для оценки; Базовая модель INEWS ***

Оценка портала

Зачем нам нужен эталон для китайского понимания ланагу?

Зачем нам нужен эталон для китайских задач?

Прежде всего, китайский - большой язык с собственными конкретными и обширными приложениями.

如中文使用人数近14亿，是联合国官方语言之一，产业界有大量的的朋友在做中文的任务。
中文是象形文字，有文字图形；字与字之间没有分隔符，不同的分词(分字或词)会影响下游任务。

Во -вторых, по сравнению с английскими наборами данных, на китайском языке относительно мало общедоступных наборов данных.

 很多数据集是非公开的或缺失基准测评的；多数的论文描述的模型是在英文数据集上做的测试和评估，那么对于中文效果如何？不得而知。

Опять же, понимание языка развивалось на нынешней стадии, и предварительно обученные модели значительно способствуют пониманию естественного языка.

 不同的预训练模型相继产生，但不少最先进(state of the art)的模型，并没有官方的中文的版本，也没有对这些预训练模型在不同任务上的公开测试，
 导致技术的发展和应用还有不少距离，或者说技术应用上的滞后。

Затем, если есть контрольный тест на китайские задачи, в том числе множество наборов данных, которые могут широко использоваться и оценить общественность, характеристики применимых китайских задач и не отставать от текущей разработки мировой технологии,

 能缓解当前中文任务的一些问题，并促进相关应用的发展。

Эталонный тест китайского содержимого системы задач.

Языковое понимание оценки оценки для китайцев (китайская) получила идеи от Glue, которая представляет собой коллекцию

Ресурсы для обучения, оценки и анализа систем понимания естественного языка. Китайскийгнут состоит из:

1) Контрольный тест китайских задач, охватывающий несколько языковых задач различной степени

Эталон нескольких задач по пониманию языка. В настоящее время наборы данных, используемые в этих задачах, поступают от общественности. Мы будем включать наборы данных с частным набором тестов до конца 2019 года.

2) Список общественного рейтинга

Общественная таблица лидеров для отслеживания производительности. Вы сможете отправить свои файлы прогнозирования в этих задачах, каждая задача будет оценена и оценена, также будет доступен окончательный счет.

3) Базовая модель, включая начальный код и предварительно обученную модель

Базовые линии для задач Китая. Базовые линии будут доступны в Tensorflow, Pytorch, Keras и PaddlePaddle.

4) Корпус для языкового моделирования, предварительного обучения или генеративных задач

Огромное количество необработанного корпуса для целей исследования до тренировок или языкового моделирования. Он будет содержать около 10 г Raw Corpus в 2019 году;

В первом полугода 2020 года он будет включать в себя не менее 30 г Raw Corpus; К концу 2020 года мы будем включать в себя достаточно сырой корпус, такой как 100G, настолько большой, что вам не понадобится более сырой корпус для языкового моделирования общего назначения. Вы можете использовать его для общего назначения или адаптации доменов, или даже для создания текста. Когда вы используете для адаптации домена, вы сможете выбрать корпус, который вас интересует.

Введение наборов данных

1. Задача семантического сходства для LCQMC разговорные описания Семантическое сходство задача

Ввод - два предложения, а выход - 0 или 1. Где 0 означает, что семантика не похожа, а 1 означает, что семантика аналогична.

    数据量：训练集(238,766)，验证集(8,802)，测试集(12,500)
    例子： 
     1.聊天室都有哪些好的 [分隔符] 聊天室哪个好 [分隔符] 1
     2.飞行员没钱买房怎么办？ [分隔符] 父母没钱买房子 [分隔符] 0

2. xnli Language Language Task Задача

Набор данных для межязычного понимания, учитывая предпосылку и предположение, определяют, имеют ли это предположение и предпосылка последствиями, оппозициями и нейтральными отношениями.

    数据量：训练集(392,703)，验证集(2,491)，测试集(5,011)
    例子： 
     1.从 概念 上 看 , 奶油 收入 有 两 个 基本 方面 产品 和 地理 .[分隔符] 产品 和 地理 是 什么 使 奶油 抹 霜 工作 . [分隔符] neutral
     2.我们 的 一个 号码 会 非常 详细 地 执行 你 的 指示 [分隔符] 我 团队 的 一个 成员 将 非常 精确 地 执行 你 的 命令  [分隔符] entailment
    
    原始的XNLI覆盖15种语言（含低资源语言）。我们选取其中的中文，并将做格式转换，使得非常容易进入训练和测试阶段。

3. Tnews Toutiao Китайские новости (короткий текст) Классификация короткое текст Classificaiton для новостей

    数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
    例子：
    6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
    每行为一条数据，以_!_分割的个字段，从前往后分别是 新闻ID，分类code，分类名称，新闻字符串（仅含标题），新闻关键词

4. ININEWS Анализ задачи настроения в Интернете. Анализ настроений для новостей Интернета

    数据量：训练集(5,356)，验证集(1,000)，测试集(1,000)     
    例子：
    1_!_00005a3efe934a19adc0b69b05faeae7_!_九江办好人民满意教育_!_近3年来，九江市紧紧围绕“人本教育、公平教育、优质教育、幸福教育”的目标，努力办好人民满意教育，促进了义务教育均衡发展，农村贫困地区办学条件改善。目前，该市特色教育学校有70所 ......
    每行为一条数据，以_!_分割的个字段，从前往后分别是情感类别，数据id，新闻标题，新闻内容

5.DRCD Традиционное китайское задание понимания прочитанного прочитанного для традиционного китайца

Набор данных по пониманию чтения Delta (DRCD) (https://github.com/drcknowledgeteam/drcd)-это традиционный набор данных по чтению и пониманию общего назначения. Ожидается, что этот набор данных будет стандартным китайским чтением и пониманием набора данных, подходящих для обучения в переезде.

数据量：训练集(8,016个段落，26,936个问题)，验证集(1,000个段落，3,524个问题)，测试集(1,000个段落，3,493个问题)  
例子：
{
  "version": "1.3",
  "data": [
    {
      "title": "基督新教",
      "id": "2128",
      "paragraphs": [
        {
          "context": "基督新教與天主教均繼承普世教會歷史上許多傳統教義，如三位一體、聖經作為上帝的啟示、原罪、認罪、最後審判等等，但有別於天主教和東正教，新教在行政上沒有單一組織架構或領導，而且在教義上強調因信稱義、信徒皆祭司， 以聖經作為最高權威，亦因此否定以教宗為首的聖統制、拒絕天主教教條中關於聖傳與聖經具同等地位的教導。新教各宗派間教義不盡相同，但一致認同五個唯獨：唯獨恩典：人的靈魂得拯救唯獨是神的恩典，是上帝送給人的禮物。唯獨信心：人唯獨藉信心接受神的赦罪、拯救。唯獨基督：作為人類的代罪羔羊，耶穌基督是人與上帝之間唯一的調解者。唯獨聖經：唯有聖經是信仰的終極權威。唯獨上帝的榮耀：唯獨上帝配得讚美、榮耀",
          "id": "2128-2",
          "qas": [
            {
              "id": "2128-2-1",
              "question": "新教在教義上強調信徒皆祭司以及什麼樣的理念?",
              "answers": [
                {
                  "id": "1",
                  "text": "因信稱義",
                  "answer_start": 92
                }
              ]
            },
            {
              "id": "2128-2-2",
              "question": "哪本經典為新教的最高權威?",
              "answers": [
                {
                  "id": "1",
                  "text": "聖經",
                  "answer_start": 105
                }
              ]
            }
          ]
        }
      ]
    }
  ]
}

Формат данных такой же, как и команда. Если вы используете упрощенную китайскую модель для оценки, вы можете превратить ее в упрощенную (этот проект был предоставлен)

6.cmrc2018 Понимание прочитанного для упрощенного китайца

https://hfl-rc.github.io/cmrc2018/

数据量：训练集(短文数2,403，问题数10,142)，试验集(短文数256，问题数1,002)，开发集(短文数848，问题数3,219)  
例子：
{
  "version": "1.0",
  "data": [
    {
        "title": "傻钱策略",
        "context_id": "TRIAL_0",
        "context_text": "工商协进会报告，12月消费者信心上升到78.1，明显高于11月的72。另据《华尔街日报》报道，2013年是1995年以来美国股市表现最好的一年。这一年里，投资美国股市的明智做法是追着“傻钱”跑。所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合。这个策略要比对冲基金和其它专业投资者使用的更为复杂的投资方法效果好得多。",
        "qas":[
                {
                "query_id": "TRIAL_0_QUERY_0",
                "query_text": "什么是傻钱策略？",
                "answers": [
                     "所谓的“傻钱”策略，其实就是买入并持有美国股票这样的普通组合",
                     "其实就是买入并持有美国股票这样的普通组合",
                     "买入并持有美国股票这样的普通组合"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_1",
                "query_text": "12月的消费者信心指数是多少？",
                "answers": [
                    "78.1",
                    "78.1",
                    "78.1"
                    ]
                },
                {
                "query_id": "TRIAL_0_QUERY_2",
                "query_text": "消费者信心指数由什么机构发布？",
                "answers": [
                    "工商协进会",
                    "工商协进会",
                    "工商协进会"
                    ]
                }
            ]
        }
    ]
}

Формат данных такой же, как и команда

7. BQ интеллектуальное сопоставление вопросов обслуживания клиентов для обслуживания клиентов

Этот набор данных является автоматическим системным корпусом вопросов и ответов, в общей сложности 120 000 паров предложений и отмечены значениями сходства пары предложений, со значением 0 или 1 (0 означает разнообразные, 1 означает аналогичный). Есть проблемы, такие как опечатки и нерегулярная грамматика в данных, но это более близко к промышленным сценариям.

    数据量：训练集(100,000)，验证集(10,000)，测试集(10,000)
    例子： 
     1.我存钱还不扣的 [分隔符] 借了每天都要还利息吗 [分隔符] 0
     2.为什么我的还没有额度 [分隔符] 为啥没有额度！！ [分隔符] 1

8. Msraner name признание объекта

В этом наборе данных, которые представлены NR, NS и NT соответственно, в этом наборе данных представлены более 50 000 китайских идентификационных данных и маркировки данных (включая имена лиц, имена мест и названия организаций), а другие объекты представлены O.

    数据量：训练集(46,364)，测试集(4,365)
    例子： 
     1.据说/o 应/o 老友/o 之/o 邀/o ，/o 梁实秋/nr 还/o 坐/o 着/o 滑竿/o 来/o 此/o 品/o 过/o 玉峰/ns 茶/o 。/o
     2.他/o 每年/o 还/o 为/o 河北农业大学/nt 扶助/o 多/o 名/o 贫困/o 学生/o 。/o

9. Классификация длинного текста Thucnews

Этот набор данных имеет более 40 000 данных с длинными текстовыми этикетками на основе китайских новостей, в общей сложности 14 категорий: «Спорт»: 0, «Развлечение»: 1, «Дома»: 2, «Лотерея»: 3, «Недвижимость»: 4, «Образование»: 5, «Мода»: 6, «Текущие дела»: 7, «Zodiac»: 8, «игра»: 9, «Общество»: «11»: 11, «11»: 11, «11»: 11, «11»: 11, «11»: 11, «11»: 11, «13»: 11, «13»: 11, «13»: 11, «Finnaly»: 11, «Finnaly»: 11, «Finnaly»: 11, «Finnaly»: 11, «Finnaly»: 11, «Finnaly».

    数据量：训练集(33,437)，验证集(4,180)，测试集(4,180)
    例子： 
 11_!_科技_!_493337.txt_!_爱国者A-Touch MK3533高清播放器试用　　爱国者MP5简介:　　"爱国者"北京华旗资讯，作为国内知名数码产品制>造商。1993年创立于北京中关村，是一家致力于......
 每行为一条数据，以_!_分割的个字段，从前往后分别是 类别ID，类别名称，文本ID，文本内容。

10. Если классификация длинного текста

В этом наборе данных в этом наборе данных в этом наборе данных содержится более 17 000 длинных текстов об описаниях приложений приложений, включая различные темы применения, связанные с повседневной жизнью, с общей суммой 119 категорий: «Такси»: 0, «Навигация по карту»: 1, «Бесплатный Wi-Fi»: 2, «прокат автомобилей»: 3, ...., «Женская»: 115, «Бизнес»: 116, «Cash»: 117, другие »: 118 (118.

    数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
    例子： 
17_!_休闲益智_!_玩家需控制一只酷似神龙大侠的熊猫人在科技感十足的未来城市中穿越打拼。感觉很山寨功夫熊猫，自由度非常高，可以做很多你想做的事情......
每行为一条数据，以_!_分割字段，从前往后分别是 类别ID，类别名称，文本内容。

11. ЧИСТИЧЕСКИЙ ИДИОМ Понимание прочитанного заполнения в бланке китайского набора данных идиомы для тестирования Cloze

https://arxiv.org/abs/1906.01265
Идиома закрывается в пробелах, и многие идиомы в тексте замаскированы, а кандидаты содержат синонимы.

    数据量：训练集(84,709)，验证集(3,218)，测试集(3,231)
    例子：
    {
      "content": [
        # 文段0
        "……在热火22年的历史中，他们已经100次让对手得分在80以下，他们在这100次中都取得了胜利，今天他们希望能#idiom000378#再进一步。", 
        # 文段1
        "在轻舟发展过程之中，是和业内众多企业那样走相似的发展模式，去#idiom000379#？还是迎难而上，另走一条与众不同之路。诚然，#idiom000380#远比随大流更辛苦，更磨难，更充满风险。但是有一条道理却是显而易见的：那就是水往低处流，随波逐流，永远都只会越走越低。只有创新，只有发展科技，才能强大自己。", 
        # 文段2
        "最近十年间，虚拟货币的发展可谓#idiom000381#。美国著名经济学家林顿·拉鲁什曾预言：到2050年，基于网络的虚拟货币将在某种程度上得到官方承认，成为能够流通的货币。现在看来，这一断言似乎还嫌过于保守……", 
        # 文段3
        "“平时很少能看到这么多老照片，这次图片展把新旧照片对比展示，令人印象深刻。”现场一位参观者对笔者表示，大多数生活在北京的人都能感受到这个城市#idiom000382#的变化，但很少有人能具体说出这些变化，这次的图片展按照区域发展划分，展示了丰富的信息，让人形象感受到了60年来北京的变化和发展。", 
        # 文段4
        "从今天大盘的走势看，市场的热点在反复的炒作之中，概念股的炒作#idiom000383#，权重股走势较为稳健，大盘今日早盘的震荡可以看作是多头关前的蓄势行为。对于后市，大盘今日蓄势震荡后，明日将会在权重和题材股的带领下亮剑冲关。再创反弹新高无悬念。", 
        # 文段5
        "……其中，更有某纸媒借尤小刚之口指出“根据广电总局的这项要求，2009年的荧屏将很难出现#idiom000384#的情况，很多已经制作好的非主旋律题材电视剧想在卫视的黄金时段播出，只能等到2010年了……"],
      "candidates": [
        "百尺竿头", 
        "随波逐流", 
        "方兴未艾", 
        "身体力行", 
        "一日千里", 
        "三十而立", 
        "逆水行舟", 
        "日新月异", 
        "百花齐放", 
        "沧海一粟"
      ]
    }

12.cmnli Language Tascoming Задача китайского многогранника NLI

Данные Chinesemnli преобразуют исходные данные MNLI на китайском и английском языке. Данные поступают из художественной литературы, телефона, путешествий, правительства, сланца и т. Д., И используются для оценки взаимосвязи между данными двумя предложениями, которые являются неявными, нейтральными и противоречивыми.

    数据量：train(391,783)，matched(9336)，mismatched(8,870)
    例子：
    {"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "gold_label": "neutral"}

13. Добавляются дополнительные наборы данных, скоро сразившись!

Добавляются больше наборов данных, если у вас есть четко определенный набор данных, свяжитесь с нами.

Скачать наборы данных в целом скачать

Или используйте команду:

 wget https://storage.googleapis.com/chineseglue/chineseGLUEdatasets.v0.0.1.zip

Китайская оценка задачи (CilinaGlue) - Ранки - Сравнение каждой оценки набора данных задач для разных моделей

Tnews Short Text Classificaiton для новостей (Точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Альберт-Хларж	88.30	88.30	batch_size = 32, длина = 128, эпоха = 3
Берт-баз	89,80	89,78	batch_size = 32, длина = 128, эпоха = 3
BERT-WWM-EXT-BASE	89,88	89,81	batch_size = 32, длина = 128, эпоха = 3
Эрни-Баз	89,77	89,83	batch_size = 32, длина = 128, эпоха = 3
Роберта-Ларж	90.00	89,91	batch_size = 16, длина = 128, эпоха = 3
XLnet-Mid	86.14	86.26	batch_size = 32, длина = 128, эпоха = 3
Роберта-Вум-Экс	89,82	89,79	batch_size = 32, длина = 128, эпоха = 3
Роберта-WWM-Large-ext	90.05	90.11	batch_size = 16, длина = 128, эпоха = 3

Xnli естественный язык вывод (точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Альберт-Хларж	74,0?	74,0?	batch_size = 64, длина = 128, эпоха = 2
Берт-баз	77.80	77.80	batch_size = 64, длина = 128, эпоха = 2
BERT-WWM-EXT-BASE	79,4	78.7	batch_size = 64, длина = 128, эпоха = 2
Эрни-Баз	79,7	78.6	batch_size = 64, длина = 128, эпоха = 2
Роберта-Ларж	80.2	79,9	batch_size = 64, длина = 128, эпоха = 2
XLnet-Mid	79,2	78.7	batch_size = 64, длина = 128, эпоха = 2
Роберта-Вум-Экс	79,56	79,28	batch_size = 64, длина = 128, эпоха = 2
Роберта-WWM-Large-ext	80.20	80.04	batch_size = 16, длина = 128, эпоха = 2

ПРИМЕЧАНИЕ: Albert-xlarge, по-прежнему существуют проблемы в тренировках по задачам xnli.

Задача семантического сходства (точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Альберт-Хларж	89.00	86.76	batch_size = 64, длина = 128, эпоха = 3
Берт-баз	89.4	86.9	batch_size = 64, длина = 128, эпоха = 3
BERT-WWM-EXT-BASE	89.1	87.3	batch_size = 64, длина = 128, эпоха = 3
Эрни-Баз	89,8	87.2	batch_size = 64, длина = 128, эпоха = 3
Роберта-Ларж	89,9	87.2	batch_size = 64, длина = 128, эпоха = 3
XLnet-Mid	86.14	85,98	batch_size = 64, длина = 128, эпоха = 3
Роберта-Вум-Экс	89.08	86.33	batch_size = 64, длина = 128, эпоха = 3
Роберта-WWM-Large-ext	89,79	86.82	batch_size = 16, длина = 128, эпоха = 3

Анализ настроений Inews для интернет -новостей (Точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Альберт-Хларж	81.80	82,40	batch_size = 32, длина = 512, эпоха = 8
Берт-баз	81.29	82,70	batch_size = 16, длина = 512, эпоха = 3
BERT-WWM-EXT-BASE	81.93	83,46	batch_size = 16, длина = 512, эпоха = 3
Эрни-Баз	84,50	85,14	batch_size = 16, длина = 512, эпоха = 3
Роберта-Ларж	81.90	84,00	batch_size = 4, длина = 512, эпоха = 3
XLnet-Mid	82.00	84,00	batch_size = 8, длина = 512, эпоха = 3
Роберта-Вум-Экс	82,98	82,28	batch_size = 16, длина = 512, эпоха = 3
Роберта-WWM-Large-ext	83,73	82,78	batch_size = 4, длина = 512, эпоха = 3

Понимание чтения DRCD для традиционного китайца (F1, EM):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Берт-баз	F1: 92.30 EM: 86,60	F1: 91,46 EM: 85,49	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
BERT-WWM-EXT-BASE	F1: 93.27 EM: 88,00	F1: 92.63 EM: 87.15	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
Эрни-Баз	F1: 92,78 EM: 86,85	F1: 92.01 EM: 86.03	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
Альберт-широкий	F1: 93,90 EM: 88,88	F1: 93.06 EM: 87,52	партия = 32, длина = 512, эпоха = 3 LR = 2E-5 разминка = 0,05
Альберт-Хларж	F1: 94,63 EM: 89,68	F1: 94,70 EM: 89,78	batch_size = 32, длина = 512, эпоха = 3 LR = 2,5E-5 разминка = 0,06
Альберт-Нижний	F1: 81,51 EM: 71,61	F1: 80,67 EM: 70.08	партия = 32, длина = 512, эпоха = 3 LR = 2E-4 разминка = 0,1
Роберта-Ларж	F1: 94,93 EM: 90.11	F1: 94.25 EM: 89,35	партия = 32, длина = 256, эпоха = 2 LR = 3E-5 разминка = 0,1
XLnet-Mid	F1: 92.08 EM: 84,40	F1: 91,44 EM: 83,28	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
Роберта-Вум-Экс	F1: 94.26 EM: 89,29	F1: 93,53 EM: 88.12	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
Роберта-WWM-Large-ext	F1: 95,32 EM: 90,54	F1: 95.06 EM: 90,70	партия = 32, длина = 512, эпоха = 2 LR = 2,5E-5 разминка = 0,1

CMRC2018 Понимание прочитанного понимания прочитанного для упрощенного китайца (F1, EM):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Берт-баз	F1: 85,48 EM: 64,77	F1: 87,17 EM: 69,72	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
BERT-WWM-EXT-BASE	F1: 86,68 EM: 66,96	F1: 88,78 EM: 73,23	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
Эрни-Баз	F1: 87.30 EM: 66,89	F1: 89,62 EM: 73,32	партия = 32, длина = 512, эпоха = 2 LR = 3E-5 разминка = 0,1
Альберт-широкий	F1: 87,86 EM: 67,75	F1: 90,17 EM: 73,66	ePoch3, партия = 32, длина = 512, LR = 2E-5, разминка = 0,05
Альберт-Хларж	F1: 88,66 EM: 68,90	F1: 90,92 EM: 75,22	ePoch3, партия = 32, длина = 512, LR = 2E-5, разминка = 0,1
Альберт-Нижний	F1: 73,95 EM: 48,31	F1: 75,73 EM: 53,68	ePoch3, партия = 32, длина = 512, LR = 2E-4, разминка = 0,1
Роберта-Ларж	F1: 88,61 EM: 69,94	F1: 90,94 EM: 76.11	ePoch2, партия = 32, длина = 256, LR = 3E-5, разминка = 0,1
XLnet-Mid	F1: 85,63 EM: 65,31	F1: 86.09 EM: 66,51	ePoch2, партия = 32, длина = 512, LR = 3E-5, разминка = 0,1
Роберта-Вум-Экс	F1: 87,28 EM: 67,89	F1: 89,74 EM: 73,89	ePoch2, партия = 32, длина = 512, LR = 3E-5, разминка = 0,1
Роберта-WWM-Large-ext	F1: 89,42 EM: 70,59	F1: 91,56 EM: 76,58	ePoch2, партия = 32, длина = 512, LR = 2,5E-5, разминка = 0,1

Понимание прочитанного идиома в чидке заполните набор данных китайской идиомы для теста на Cloze (Точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Берт-баз	82.2	82.04	партия = 24, длина = 64, эпоха = 3 LR = 2E-5
BERT-WWM-EXT-BASE	-	-	-
Эрни-Баз	-	-	-
Альберт-широкий	-	-	-
Альберт-Хларж	-	-	-
Альберт-Нижний	-	-	-
Роберта-Ларж	85,31	84,5	партия = 24, длина = 64, эпоха = 3 LR = 2E-5
XLnet-Mid	-	-	-
Роберта-Вум-Экс	83,78	83,62	партия = 24, длина = 64, эпоха = 3 LR = 2E-5
Роберта-WWM-Large-ext	85,81	85,37	партия = 24, длина = 64, эпоха = 3 LR = 2E-5

CMNLI Китайский вывод естественного языка китайский мульти-жанр NLI (Точность):

Модель	соответствует	Ссыл	Параметры обучения
Берт-баз	79,39	79,76	партия = 32, длина = 128, эпоха = 3 LR = 2E-5
BERT-WWM-EXT-BASE	81.41	80.67	партия = 32, длина = 128, эпоха = 3 LR = 2E-5
Эрни-Баз	79,65	80.70	партия = 32, длина = 128, эпоха = 3 LR = 2E-5
Albert-xxlarge	-	-	-
Альберт-Нижний	72,71	72,72	партия = 32, длина = 128, эпоха = 3 LR = 2E-5
Роберта-Ларж	-	-	-
XLnet-Mid	78.15	76.93	партия = 16, длина = 128, эпоха = 3 LR = 2E-5
Роберта-Вум-Экс	81.09	81.38	партия = 32, длина = 128, эпоха = 3 LR = 2E-5
Роберта-WWM-Large-ext	83,4	83,42	партия = 32, длина = 128, эпоха = 3 LR = 2E-5

BQ Intelligent Mersion Mervice Mossing Matching для обслуживания клиентов (точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Берт-баз	85,86	85,08	batch_size = 64, длина = 128, эпоха = 3
BERT-WWM-EXT-BASE	86.05	85,21	batch_size = 64, длина = 128, эпоха = 3
Эрни-Баз	85,92	84,47	batch_size = 64, длина = 128, эпоха = 3
Роберта-Ларж	85,68	85,20	batch_size = 8, длина = 128, эпоха = 3
XLnet-Mid	79,81	77,85	batch_size = 32, длина = 128, эпоха = 3
Альберт-Хларж	85,21	84.21	batch_size = 16, длина = 128, эпоха = 3
Альберт-Нижний	82.04	80.76	batch_size = 64, длина = 128, эпоха = 5
Роберта-Вум-Экс	85,31	84,02	batch_size = 64, длина = 128, эпоха = 3
Роберта-WWM-Large-ext	86.34	84,90	batch_size = 16, длина = 128, эпоха = 3

MSraner name Entity Признание (F1):

Модель	Тестовый набор (тест)	Параметры обучения
Берт-баз	95,38	batch_size = 16, длина = 256, epoch = 5, lr = 2e-5
BERT-WWM-EXT-BASE	95,26	batch_size = 16, длина = 256, epoch = 5, lr = 2e-5
Эрни-Баз	95,17	batch_size = 16, длина = 256, epoch = 5, lr = 2e-5
Роберта-Ларж	96.07	batch_size = 8, длина = 256, epoch = 5, lr = 2e-5
XLnet-Mid	92.11	batch_size = 8, длина = 256, epoch = 5, lr = 2e-5
Альберт-Хларж	89,51	batch_size = 16, длина = 256, эпоха = 8, lr = 7e-5
Альберт-баз	92.47	batch_size = 32, длина = 256, эпоха = 8, lr = 5e-5
Альберт-Нижний	84,77	batch_size = 32, длина = 256, эпоха = 8, lr = 5e-5
Роберта-Вум-Экс	95.06	batch_size = 16, длина = 256, epoch = 5, lr = 2e-5
Роберта-WWM-Large-ext	95,32	batch_size = 8, длина = 256, epoch = 5, lr = 2e-5

Thucnews Long Text Classification (Точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Альберт-Хларж	95,74	95,45	batch_size = 32, длина = 512, эпоха = 8
Альберт-Нижний	92,63	93,54	batch_size = 64, длина = 128, эпоха = 5
Берт-баз	95,28	95,35	batch_size = 8, длина = 128, эпоха = 3
BERT-WWM-EXT-BASE	95,38	95,57	batch_size = 8, длина = 128, эпоха = 3
Эрни-Баз	94,35	94,90	batch_size = 16, длина = 256, эпоха = 3
Роберта-Ларж	94,52	94,56	batch_size = 2, длина = 256, эпоха = 3
XLnet-Mid	94.04	94,54	batch_size = 16, длина = 128, эпоха = 3
Роберта-Вум-Экс	95,59	95,52	batch_size = 16, длина = 256, эпоха = 3
Роберта-WWM-Large-ext	96.10	95,93	batch_size = 32, длина = 512, эпоха = 8

Iflytekdata Long Text Classification (Точность):

Модель	Набор разработки (DEV)	Тестовый набор (тест)	Параметры обучения
Альберт-Хларж	61,94	61.34	batch_size = 32, длина = 128, эпоха = 3
Альберт-Нижний	44,83	44,62	batch_size = 32, длина = 256, epoch = 3
Берт-баз	63,57	63,48	batch_size = 32, длина = 128, эпоха = 3
BERT-WWM-EXT-BASE	63,83	63,75	batch_size = 32, длина = 128, эпоха = 3
Эрни-Баз	61.75	61.80	batch_size = 24, длина = 256, эпоха = 3
Роберта-Ларж	63,80	63,91	batch_size = 32, длина = 128, эпоха = 3
XLnet-Mid	60.16	60.04	batch_size = 16, длина = 128, эпоха = 3
Роберта-Вум-Экс	64.18	-	batch_size = 16, длина = 128, эпоха = 3
Роберта-WWM-Large-ext	65.19	65.10	batch_size = 32, длина = 128, эпоха = 3

Базовая модель - коды начала кода для базовых линий

Мы предоставляем вам сценарии, которые можно запускать «один клик», чтобы помочь вам быстрее выполнять определенные задачи на указанных моделях.

Взяв пример запуска задачи «BQ Intelligent Service Messurance Messurance» на модели BERT, вы можете запустить сценарий RUN_CLASSIFIER_ BQ .SH непосредственно под Kindgglue/Baserines/Models/ Bert /.

 cd chineseGLUE/baselines/models/bert/
sh run_classifier_bq.sh

Скрипт автоматически загрузит набор данных «Интеллектуальный подход к вопросам обслуживания клиентов» (Save in CilinaGlue/Baselines/Glue/KindGluedatasets/ BQ /Folder) и модель BERT (сохранение в CilinaGlue/Baselines/Models/Bert/Prev_trained_model/).

Для получения подробной информации, пожалуйста, см.

Открытый портал отправки оценки: я хочу отправить

Корпус для моделирования Langauge, предварительное обучение, создание задач

Может использоваться для языкового моделирования, предварительного обучения или генеративных задач и т. Д. Объем данных превышает 10G, а основная часть поступает из проекта NLP_CHINESE_CORPUS

Текущий корпус обрабатывается в [формате до тренировки] и содержит несколько папок; Каждая папка имеет много небольших файлов размера не более 4 м, а формат файла соответствует формату предварительного обучения: одна строка на предложение, разделенное пустыми линиями между документами.

Содержит следующий субклам (всего 14G Corpus):

1. Новости корпоративные: 8G корпоративные, разделенные на две верхние и нижние части, в общей сложности 2000 небольших файлов.

2. Community Interactive Corpus: 3G Corpus, содержащий текст 3G, в общей сложности более 900 небольших файлов.

3. Википедия: около 1,1 г текста, содержащий около 300 небольших файлов.

4. Комментарий Данные: около 2,3 г текста, содержащий 811 небольших файлов, объедините несколько данных комментариев из Chinesenlpcorpus, очистить, преобразовать форматы и разделить на небольшие файлы.

Вы можете получить этот корпус, очистив данные и преобразовав формат через два вышеупомянутые элементы;

Вы также можете получить корпус единого проекта по электронной почте (CilinaGlue#163.com) и сообщить об этом подразделении или школе, имени и цели корпуса;

Чтобы получить весь корпус в рамках проекта CilinaGlue, вы должны стать членом организации Китая и выполнить (небольшую) задачу.

Станьте одним из основателей организации Китая

Вы сможете получить выгоды:

1. Оботителем первой китайской задачи в Китае.

2. иметь возможность внести свой вклад вместе с другими специалистами для продвижения развития китайского естественного языка обработки

3. После участия в какой-либо работе получите крупномасштабное предварительное корпус, который был очищен и предварительно обучен, что такое же, как и английский Wiki & BookCorpus, для исследовательских целей.

4. Приоритет уделяется использованию предварительно обученной китайской модели состояния искусства, включая различные испытательные версии или неопубликованные версии

Как присоединиться к нам:

Отправьте электронное письмо в ClueBenchmark#163.com, чтобы кратко представить себя, свое образование, работу или направление исследований, свою организацию и где вы можете внести свой вклад в сообщество. Мы свяжемся с вами после оценки.

Список задач Todo List

1. Соберите и набор данных Mine 1, как правило, задача классификации или предложения к предложению (требуются дополнительные 5 наборов данных)

2. Задача понимания прочитанного преобразуется в предложения в задачи (например, подсказки и вопросы или ответы) и оценивается. Данные должны быть разделены на обучение, проверку и наборы тестов.

3. Базовые методы обучения и прогнозирования и сценарии для конкретных моделей задач (поддерживает Pytorch и Keras);

4. Для текущих основных моделей (таких как Bert/Bert_WWM_EXT/ROBERTA/ALBERT/ERNIE/ERNIE2.0 и т. Д.) В сочетании с набором данных CilinaGlue выполняется тест точности.

Например: xlnet-mid-тесты на наборе данных LCQMC

5. Есть ли какие -либо модели, участвующие в оценке?