nlp_chinese_corpus Download - nlp_chinese_corpus ИСПЫТАТЕЛЬНЫЙ КОД Скачать

Внести материалы для развития китайской обработки естественного языка

【Langya Bang】-Chinese Big Model Special Arena, ведущие модели, о которых вас волнуют, все здесь

Последний список китайских макетов

SuperClue: китайская общая модель Комплексная оценка оценки

*** обновлять ****

Оценка эталона китайского задания, 10 основных задач и 9 моделей, работающих за один щелчок, подробная оценка:

Языковая оценка оценки для китайцев (Clue Benchmark): запустите 10 задач и 9 базовых линий с одной линией кода, сравнение производительности с деталями.

Выпуск предварительно обученной модели Albert_chinese:

Обучение с 30G+ сырым китайским корпусом, XXLARGE, Small Version и другим, Target, чтобы соответствовать современным показателям на китайском языке с 30% меньше параметров, 2019-окт-7, в Национальный день Китая!

Корпус будет продолжать расширяться. Полем Полем

Цель I Фаза: китайский корпус на уровне 10 миллионов и китайский корпус на уровне 3 миллиона (1 мая 2019 г.)

Цель II этапа: китайский корпус на уровне 30 миллионов и китайский корпус на 100 миллионов и китайский корпус на 100 миллионов (31 декабря 2019 г.)

Обновление: добавлено высококачественное сообщество Q & A Version JSON (WebText2019ZH), которую можно использовать для обучения сверхуровневых моделей NLP в масштабе; Добавить 5,2 миллиона переведенных корпуса (Transtation2019ZH).

1. Википедия (Wiki2019ZH), 1 миллион хорошо структурированных китайских записей

2. News Corpus (News2016ZH), 2,5 миллиона новостных статей, включая ключевые слова и описания

3. Энциклопедия Q & A (BAIKE2018QA), 1,5 миллиона вопросов и ответов с вопросами

4. Версия Q & A сообщества JSON (WebText2019ZH), 4,1 миллиона высококачественных сообществ и ответов, подходящих для обучения супер больших моделям

5. Translation Corpus (Translation2019ZH), 5,2 млн. Клитайских и английских паров предложений

Почему этот проект нужен

Китайская информация повсюду, но нелегко, а иногда и очень трудно получить большое количество китайского корпуса. В это время в начале 2019 года,

Обычные практики, исследователи или студенты не имеют хорошего канала для получения большого количества китайского корпуса. Автор хочет обучить китайский вектор слов.

После долгого поиска на Baidu и Github в течение долгого времени я получил очень мало: либо величина корпуса слишком мала, данные слишком стары, либо требуемая обработка слишком сложна.

Интересно, столкнулись ли вы тоже такую проблему?

Наш проект заключается в том, чтобы внести скудные усилия, чтобы решить эту проблему.

1. Версия Wikipedia JSON (Wiki2019ZH)

1,04 миллиона записей (1 043 224 пункта; исходный размер файла составляет 1,6 г, сжатый файл 519 м; время обновления данных: 2019.2.7)

Загрузка Google Drive или Baidu Cloud Drive

Возможное использование:

可以做为通用中文语料，做预训练的语料或构建词向量，也可以用于构建知识问答。

Структура:

 {"id":<id>,"url":<url>,"title":<title>,"text":<text>} 其中，title是词条的标题，text是正文；通过"nn"换行。

пример:

 {"id": "53", "url": "https://zh.wikipedia.org/wiki?curid=53", "title": "经济学", "text": "经济学nn经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。nn经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。..."}

Эффект:

经济学
经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“经济学”一词源于古希腊的。
经济学注重的是研究经济行为者在一个经济体系下的行为，以及他们彼此之间的互动。在现代，经济学的教材通常将这门领域的研究分为总体经济学和个体经济学。微观经济学检视一个社会里基本层次的行为，包括个体的行为者（例如个人、公司、买家或卖家）以及与市场的互动。而宏观经济学则分析整个经济体和其议题，包括失业、通货膨胀、经济成长、财政和货币政策等。
其他的对照还包括了实证经济学（研究「是什么」）以及规范经济学（研究「应该是什么」）、经济理论与实用经济学、行为经济学与理性选择经济学、主流经济学（研究理性-个体-均衡等）与非主流经济学（研究体制-历史-社会结构等）。
经济学的分析也被用在其他各种领域上，主要领域包括了商业、金融、和政府等，但同时也包括了如健康、犯罪、教育、法律、政治、社会架构、宗教、战争、和科学等等。到了21世纪初，经济学在社会科学领域各方面不断扩张影响力，使得有些学者讽刺地称其为「经济学帝国主义」。
在现代对于经济学的定义有数种说法，其中有许多说法因为发展自不同的领域或理论而有截然不同的定义，苏格兰哲学家和经济学家亚当·斯密在1776年将政治经济学定义为「国民财富的性质和原因的研究」，他说：
让-巴蒂斯特·赛伊在1803年将经济学从公共政策里独立出来，并定义其为对于财富之生产、分配、和消费的学问。另一方面，托马斯·卡莱尔则讽刺的称经济学为「忧郁的科学」（Dismal science），不过这一词最早是由马尔萨斯在1798年提出。约翰·斯图尔特·密尔在1844年提出了一个以社会科学定义经济学的角度：
.....

2. Новости корпус JSON версия (News2016ZH)

2,5 млн. Новостных статей (оригинальные данные 9G, сжатый файл 3.6G; Span Spant: 2014-2016)

Скачать Google Drive или загрузить Baidu Cloud Drive, пароль: K265

Описание данных

Он содержит 2,5 миллиона новостных статей. Источник новостей охватывает 63 000 СМИ, включая названия, ключевые слова, описания и тексты.

Разделение наборов данных: данные дедупливаются и делятся на три части. Учебный набор: 2,43 миллиона; Набор проверки: 77 000; Тестовый набор, десятки тысяч, загрузка не предоставлена.

Возможное использование:

可以做为【通用中文语料】，训练【词向量】或做为【预训练】的语料；

也可以用于训练【标题生成】模型，或训练【关键词生成】模型（选关键词内容不同于标题的数据）；

亦可以通过新闻渠道区分出新闻的类型。

Структура:

 {'news_id': <news_id>,'title':<title>,'content':<content>,'source': <source>,'time':<time>,'keywords': <keywords>,'desc': <desc>, 'desc': <desc>}

其中，title是新闻标题，content是正文，keywords是关键词，desc是描述，source是新闻的来源，time是发布时间

пример:

 {"news_id": "610130831", "keywords": "导游，门票","title": "故宫淡季门票40元 “黑导游”卖外地客140元", "desc": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售", "source": "新华网", "time": "03-22 12:00", "content": "近日有网友微博爆料称，故宫午门广场售票处出现“黑导游”，专门向外地游客出售高价门票。昨日，记者实地探访故宫，发现“黑导游”确实存在。窗口出售40元的门票，被“黑导游”加价出售，最高加到140元。故宫方面表示，请游客务必通过正规渠道购买门票，避免上当受骗遭受损失。目前单笔门票购买流程不过几秒钟，耐心排队购票也不会等待太长时间。....再反弹”的态势，打击黑导游需要游客配合，通过正规渠道购买门票。"}

3. Энциклопедия Q & A версия JSON (BAIKE2018QA)

1,5 миллиона вопросов и ответов (исходные данные более 1 г, сжатый файл составляет 663 м; Время обновления данных: 2018)

Скачать Google Drive или загрузить Baidu Cloud Drive, пароль: FU45

Описание данных

Содержит 1,5 миллиона предварительно фильтрованных, высококачественных вопросов и ответов, каждый из которых входит в категорию. Всего 492 категории, из которых 434 категории достигли или превысили 10 раз.

Разделение наборов данных: данные дедупливаются и делятся на три части. Набор обучения: 1,425 миллиона; Набор проверки: 45 000; Тестовый набор, десятки тысяч, загрузка не предоставлена.

Возможное использование:

可以做为通用中文语料，训练词向量或做为预训练的语料；也可以用于构建百科类问答；其中类别信息比较有用，可以用于做监督训练，从而构建

更好句子表示的模型、句子相似性任务等。

Структура:

 {"qid":<qid>,"category":<category>,"title":<title>,"desc":<desc>,"answer":<answer>}

其中，category是问题的类型，title是问题的标题，desc是问题的描述，可以为空或与标题内容一致。

пример:

 {"qid": "qid_2540946131115409959", "category": "生活知识", "title": "冬天进补好一些呢，还是夏天进步好啊？ ", "desc": "", "answer": "你好！rr当然是冬天进补好的了，夏天人体的胃处于收缩状态，不适宜大量的进补，所以我们有时候说：“夏天就要吃些清淡的，就是这个道理的。”rr不过，秋季进补要注意“四忌” 一忌多多益善。任何补药服用过量都有害。认为“多吃补药，有病治病，无病强身”是不的。过量进补会加重脾胃、肝脏负担。在夏季里，人们由于喝冷饮，常食冻品，多有脾胃功能减弱的现象，这时候如果突然大量进补，会骤然加重脾胃及肝脏的负担，使长期处于疲弱的消化器官难于承受，导致消化器官功能紊乱。 rr二忌以药代食。重药物轻食物的做法是不科学的，许多食物也是好的滋补品。如多吃荠菜可治疗高血压；多吃萝卜可健胃消食，顺气宽胸；多吃山药能补脾胃。日常食用的胡桃、芝麻、花生、红枣、扁豆等也是进补的佳品。rr三忌越贵越好。每个人的身体状况不同，因此与之相适应的补品也是不同的。价格昂贵的补品如燕窝、人参之类并非对每个人都适合。每种进补品都有一定的对象和适应症，应以实用有效为滋补原则，缺啥补啥。 rr四忌只补肉类。秋季适当食用牛羊肉进补效果好。但经过夏季后，由于脾胃尚未完全恢复到正常功能，因此过于油腻的食品不易消化吸收。另外，体内过多的脂类、糖类等物质堆积可能诱发心脑血管病。"}

Публичный обзор:

Добро пожаловать, чтобы сообщить о точности модели в наборе проверки. Задача 1: прогноз категории.

Отчеты включают в себя: #1) точность на наборе проверки; #2) модель, описание метода, используемый режим работы, 1 страница PDF; #3) Запустить исходный код (необязательно)

На основании #2 и #3 мы проведем тесты на наборе тестирования и сообщим о точности на наборе тестирования; Представлены только команды с № 1 и № 2, и результаты на наборе проверки все еще могут отображаться, но будут отмечены как незавершенные.

4. Версия JSON Q & A сообщества (WebText2019ZH): крупномасштабные высококачественные наборы данных

4,1 миллиона вопросов и ответов (отфильтрованные данные 3.7G, сжатый файл 1.7G; SPAN данных: 2015-2016)

Google Drive скачать

Описание данных

Содержит 4,1 миллиона предварительно фильтрованных, высококачественных вопросов и ответов. Каждый вопрос принадлежит [теме], в общей сложности 28 000 различных тем, а темы всеобъемлющие.

Из 14 миллионов оригинальных вопросов и ответов, фильтрации ответов, которые получили не менее 3 лайков, означает, что содержание ответа является относительно хорошим или интересным, тем самым получая высококачественный набор данных.

В дополнение к соответствующей теме, описанию вопроса и одному или нескольким ответам для каждого вопроса, в каждом ответах также есть тег, как номер, идентификатор ответа и ответчик.

Разделение наборов данных: данные дедупливаются и делятся на три части. Учебный набор: 4,12 миллиона; Набор проверки: 68 000; Тестовый набор A: 68 000; Тестовый набор B, загрузка не предоставлена.

Возможное использование:

 1）构建百科类问答：输入一个问题，构建检索系统得到一个回复或生产一个回复；或根据相关关键词从，社区问答库中筛选出你相关的领域数据

2）训练话题预测模型：输入一个问题(和或描述)，预测属于话题。

3）训练社区问答(cQA)系统：针对一问多答的场景，输入一个问题，找到最相关的问题，在这个基础上基于不同答案回复的质量、

  问题与答案的相关性，找到最好的答案。

4）做为通用中文语料，做大模型预训练的语料或训练词向量。其中类别信息也比较有用，可以用于做监督训练，从而构建更好句子表示的模型、句子相似性任务等。

5）结合点赞数量这一额外信息，预测回复的受欢迎程度或训练答案评分系统。

Структура:

 {"qid":<qid>,"title":<title>,"desc":<desc>,"topic":<topic>,"star":<star>,"content":<content>,

"answer_id":<answer_id>,"answerer_tags":<answerer_tags>}

其中，qid是问题的id，title是问题的标题，desc是问题的描述，可以为空；topic是问题所属的话题，star是该回复的点赞个数，

content是回复的内容，answer_id是回复的ID,answerer_tags是回复者所携带的标签

пример:

 {"qid": 65618973, "title": "AlphaGo只会下围棋吗？阿法狗能写小说吗？", "desc": "那么现在会不会有智能机器人能从事文学创作？<br>如果有，能写出什么水平的作品？", "topic": "机器人", "star": 3, "content": "AlphaGo只会下围棋，因为它的设计目的，架构，技术方案以及训练数据，都是围绕下围棋这个核心进行的。它在围棋领域的突破，证明了深度学习深度强化学习MCTS技术在围棋领域的有效性，并且取得了重大的PR效果。AlphaGo不会写小说，它是专用的，不会做跨出它领域的其它事情，比如语音识别，人脸识别，自动驾驶，写小说或者理解小说。如果要写小说，需要用到自然语言处理（NLP））中的自然语言生成技术，那是人工智能领域一个", "answer_id": 545576062, "answerer_tags": "人工智能@游戏业"}

Общественная оценка и задачи в этом наборе данных:

Задача 1: Предсказание темы.

Задача 2: Обучение системы сообщества и ответов (CQA).

Требования: Индикатор оценки принимает карту, создайте тестовый набор, подходящий для задач сортировки, и сообщают о влиянии на набор тестирования.

Задача 3: Используйте этот набор данных (WebText2019ZH), см. В GPT-2 OpenAI, обучить китайские модели текста текста, проверить влияние нулевого выстрела на другие наборы данных или оценить влияние языковых моделей.

5. Перевод корпуса (перевод 2019ZH)

5,2 млн. Параллельного корпуса на китайском и английском языке (оригинальные данные 1.1G, сжатый файл 596 м)

Google Drive скачать

Описание данных

5,2 миллиона пар параллельного корпуса на китайском и английском языке. Каждая пара содержит один английский и соответствующий китайский. На китайском или английском языке большую часть времени это полное предложение с пунктуацией.

Для параллельной пары китайско-английского языка в среднем 36 персонажей в китайском языке и 19 слов на английском языке (такие слова, как «она»)

Разделение наборов данных: данные дедупливаются и делятся на три части. Учебный набор: 5,16 миллиона; Набор проверки: 39 000; Тестовый набор, десятки тысяч, загрузка не предоставлена.

Возможное использование:

可以用于训练中英文翻译系统，从中文翻译到英文，或从英文翻译到中文；

由于有上百万的中文句子，可以只抽取中文的句子，做为通用中文语料，训练词向量或做为预训练的语料。英文任务也可以类似操作；

Структура:

 {"english": <english>, "chinese": <chinese>}

其中，english是英文句子，chinese是中文句子，中英文一一对应。

пример:

 {"english": "In Italy, there is no real public pressure for a new, fairer tax system.", "chinese": "在意大利，公众不会真的向政府施压，要求实行新的、更公平的税收制度。"}

Вклад

Чтобы внести свой вклад в китайский корпус, отправьте электронное письмо на [email protected]

Совместно установить широкомасштабное открытое и общее китайское корпус для продвижения развития области обработки естественного языка Китая, любое корпус, предоставленный и принятый в проект,

В дополнение к перечислению списка участников (необязательно), мы выберем 20 лучших студентов на основе качества и величины корпуса, и отправим клавиатуру, мышь и

Дисплей экранов, беспроводные наушники, умные динамики или другие элементы эквивалентного значения, чтобы выразить благодарность участнику.

Добавьте здесь свой китайский корпус, отправив нам электронное письмо

Если есть какие -либо проблемы, касающиеся данных, вы также можете связаться с нами, мы обработаем их в течение одной недели.

Спасибо за понимание.

Авторы проекта или контрольный список организации

Reactivecj

Цитата / Как мне цитировать?

 @misc{bright_xu_2019_3402023,
author       = {Bright Xu},
title        = {NLP Chinese Corpus: Large Scale Chinese Corpus for NLP },
month        = sep,
year         = 2019,
doi          = {10.5281/zenodo.3402023},
version      = {1.0},
publisher    = {Zenodo},
url          = {https://doi.org/10.5281/zenodo.3402023}
}

Пожалуйста, также напишите нам свой документ или работайте над набором данных этого проекта

Чтобы внести свой вклад в китайский корпус, пришлите электронное письмо: [email protected];

Ссылка

Эксперимент по созданию вики китайского вектора Word Word Word с использованием Python
Инструмент для извлечения простого текста из свалки Википедии
Открыть китайский конверт (opencc) в Pure Python: Open Chine Convert
свалки вики, последняя на китайском языке

Расширять