Python Toolkit для теста оценки оценки китайского языка.
Инструментарий Python для понимания китайского языка оценок может быстро оценить репрезентативные наборы данных и контрольные модели (предварительно подготовленные) и выбрать соответствующие контрольные (предварительные) модели для своих собственных данных для быстрого применения.
Наборы данных, базовые показатели, предварительно обученные модели, корпус и таблицу лидеров
Понимание китайского языка оценок, в том числе репрезентативные наборы данных, контрольные (предварительные) модели, корпус и рейтинги.
Мы выберем серию наборов данных, соответствующих определенным репрезентативным задачам в качестве набора данных для нашего тестового эталона. Эти наборы данных охватывают различные задачи, объем данных и сложность задачи.
Теперь Pyclue может быть установлен через PIP:
pip install --upgrade PyCLUEИли напрямую установить Pyclue от Git Clone:
pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.gitПоддерживаются предварительно обученные языковые модели
В ожидании поддержки
ПРИМЕЧАНИЕ. Набор данных согласуется с набором данных, предоставленным ClueBenchmark, и соответственно изменен в формате в соответствии с проектом Pyclue.
数据量:训练集(34334)验证集(4316)测试集(3861)
例子:
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,句子相似度标签。其中label标签,1 表示sentence1和sentence2的含义类似,0表示两个句子的含义不同。
Ссылка: https://pan.baidu.com/s/1it1simjbsrnl1deobogxg код извлечения: ksd1
Обучение сценария сценария: pyclue/clue/predent_pair/afqmc/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb
Отправить сценарий файла.
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb
Этот набор данных поступает из раздела новостей в Toutiao, и в общей сложности было извлечено 15 категорий новостей, включая туризм, образование, финансы, военные и т. Д.
数据量:训练集(266,000),验证集(57,000),测试集(57,000)
例子:
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍,迷之角度竟这么好看,美吸引一切事物"}
每一条数据有三个属性,从前往后分别是 分类ID,分类名称,新闻字符串(仅含标题)。
Ссылка: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq код извлечения: s9go
Расположение скрипта обучения: Pyclue/Clue/Classification/Tnews/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb
Отправить сценарий файла.
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb
В этом наборе данных в этом наборе данных в этом наборе данных содержится более 17 000 длинных текстов об описаниях приложений приложений, включая различные темы применения, связанные с повседневной жизнью, с общей суммой 119 категорий: «Такси»: 0, «Навигация по карту»: 1, «Бесплатный Wi-Fi»: 2, «прокат автомобилей»: 3, ...., «Женская»: 115, «Бизнес»: 116, «Cash»: 117, другие »: 118 (118.
数据量:训练集(12,133),验证集(2,599),测试集(2,600)
例子:
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性,从前往后分别是 类别ID,类别名称,文本内容。
Ссылка: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a код извлечения: U00V
Обучение модели Местоположение: Pyclue/Clue/Classification/iflytek/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb
Отправить сценарий файла.
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb
Данные CMNLI состоит из двух частей: XNLI и MNLI. Данные поступают из художественной литературы, телефона, путешествий, правительства, сланца и т. Д. Первоначальные данные MNLI и XNLI были преобразованы на китайском и английском языке, сохранив оригинальный тренировочный набор, объединяя разработчик в XNLI и соответствовали MNLI в качестве разработчика CMNLI, сочетая тест в XNLI и несовместимые в MNLI в качестве CMNLI, и в CMNLI, и не выполняют позор. Этот набор данных может быть использован для определения взаимосвязи между данными двумя предложениями, которые являются последствиями, нейтральными и противоречивыми.
数据量:train(391,782),matched(12,426),mismatched(13,880)
例子:
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性,从前往后分别是 句子1,句子2,蕴含关系标签。其中label标签有三种:neutral,entailment,contradiction。
Ссылка: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq код извлечения: Kigh
Учебная модель Местоположение сценария: Pyclue/Clue/Suffer_pair/cmnli/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb
Отправить сценарий файла.
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb
Диагностические наборы, используемые для оценки эффективности различных моделей на явлениях китайского языка, обобщенные 9 лингвистами.
Используя модель, обученную на CMNLI, результаты этого диагностического набора напрямую прогнозируются. Формат представления согласуется с CMNLI. Вы можете увидеть результаты на странице сведений о ранжировании. (Примечание: этот набор данных содержит обучающий набор и набор тестов CMNLI)
Ссылка: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Код извлечения: U194
Расположение скрипта обучения: pyclue/clue/predent_pair/diagnostics/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb
Отправить сценарий файла: pyclue/clue/predent_pair/diagnostics/predict.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb
Дополнительный.
Многоклассификационные задачи, такие как классификация текста, классификация эмоций и т. Д., Это могут принять две формы: ввод в одном предложении и ввод пары предложений.
Справочник данных должен содержать хотя бы по крайней мере Train.txt, Dev.txt и Labels.txt Files, и могут быть добавлены файлы test.txt.
Сохранить форму формы:
Ввод с одним предложением (соответствующий task_type = 'single' в сценарии оценки): pyclue/examples/classification/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/single_data_template
Ввод пары предложений (соответствующий task_type = 'pairs' в сценарии оценки): pyclue/examples/classification/pairs_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/pairs_data_templates/blob/master/examples/classification/pairs_data_templates/blob/master/examples/classification/pairs_data_teplates/master/examples/classification/pairs_data_templ
ПРИМЕЧАНИЕ. T следует использовать в качестве сепаратора.
Обучение модели Местоположение: Pyclue/Примеры/классификация/Train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb
Прогнозируемое местоположение сценария: Pyclue/Примеры/классификация/Predict.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb
Приговор-задача (Twin Network), такой как сходное предложение к заданию и т. Д. , Отличающуюся от модели предложения к вход в задачи с несколькими классификациями: предложения в задачах с несколькими классификациями используют форму сплайсинга, подобную BERT, для ввода задачи, в то время как эта задача использует форму двойной сети.
Справочник данных должен содержать хотя бы по крайней мере Train.txt, Dev.txt и Labels.txt Files, и могут быть добавлены файлы test.txt.
Сохранить форму формы:
Введите: pyclue/examples/predent_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates
ПРИМЕЧАНИЕ. T следует использовать в качестве сепаратора.
Обучение модели Местоположение: Pyclue/Примеры/Suentence_pair/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb
Прогнозируемое местоположение скрипта: Pyclue/Примеры/Predent_pair/Predict.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb
Задачи сопоставления текста (Twin Network), такие как поиск FAQ, поиск по сравнению с QQ и другие задачи, используйте двойную сеть для генерации информации о внедрении для входных предложений и использования Hnswlib для получения наиболее похожих предложений.
Каталог данных должен содержать хотя бы cache.txt, train.txt, dev.txt и файлы labels.txt, и вы можете добавить файлы test.txt.
Сохранить форму формы:
Ввод: Pyclue/Примеры/Text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates
ПРИМЕЧАНИЕ. T следует использовать в качестве сепаратора.
Обучение модели Местоположение сценария: Pyclue/Примеры/Text_matching/train.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb
Прогнозируемое местоположение скрипта: Pyclue/Примеры/Text_matching/Predict.ipynb
Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb
Файл модели содержит 10 последних файлов модели контрольной точки и файлов модели PB (10 файлов модели контрольной точки, которые лучше всего работают в тестовом наборе dev.txt).
Индикаторные файлы (train_metrics.png), сгенерированные процессом обучения, являются точностью, тотальная_лос, Batch_loss, точность, отзыв и индикаторы F1.
Если существует проверка файла проверки.
Обновлено.
Официальный адрес: https://github.com/cluebenchmark/pyclue
Адрес отладки: https://github.com/liushaoweihua/pyclue