Скачать PyCLUE - скачать исходный код PyCLUE

PyCLUE

AI Исходный код

1.0.0

Скачать

Пиклу

Python Toolkit для теста оценки оценки китайского языка.

Инструментарий Python для понимания китайского языка оценок может быстро оценить репрезентативные наборы данных и контрольные модели (предварительно подготовленные) и выбрать соответствующие контрольные (предварительные) модели для своих собственных данных для быстрого применения.

О подсказке

Наборы данных, базовые показатели, предварительно обученные модели, корпус и таблицу лидеров

Понимание китайского языка оценок, в том числе репрезентативные наборы данных, контрольные (предварительные) модели, корпус и рейтинги.

Мы выберем серию наборов данных, соответствующих определенным репрезентативным задачам в качестве набора данных для нашего тестового эталона. Эти наборы данных охватывают различные задачи, объем данных и сложность задачи.

Установите Pyclue

Теперь Pyclue может быть установлен через PIP:

pip install --upgrade PyCLUE

Или напрямую установить Pyclue от Git Clone:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

Benchmark (предварительно) модель

Поддерживаются предварительно обученные языковые модели

БЕРТ-ЗХ
Bert-WWM-Ext
albert_xlarge_zh_brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
roberta_zh_brightmart
roberta_wwm_ext_zh_brightmart
roberta_wwm_ext_large_zh_brightmart

В ожидании поддержки

Xlnet_mid
Ernie_base

Быстро оценить наборы данных подсказки

Введение и загрузка набора данных

ПРИМЕЧАНИЕ. Набор данных согласуется с набором данных, предоставленным ClueBenchmark, и соответственно изменен в формате в соответствии с проектом Pyclue.

1. AFQMC Ant Financial Semantic Semantic Semantic

Введение данных

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

Ссылка: https://pan.baidu.com/s/1it1simjbsrnl1deobogxg код извлечения: ksd1

Оценка сценария

Обучение сценария сценария: pyclue/clue/predent_pair/afqmc/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

Отправить сценарий файла.

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. Tnews 'Сегодняшние заголовки китайские новости (короткий текст) классифицируют короткие текст классифицированные для новостей

Введение данных

Этот набор данных поступает из раздела новостей в Toutiao, и в общей сложности было извлечено 15 категорий новостей, включая туризм, образование, финансы, военные и т. Д.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

Ссылка: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq код извлечения: s9go

Оценка сценария

Расположение скрипта обучения: Pyclue/Clue/Classification/Tnews/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

Отправить сценарий файла.

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3. Iflytek 'Long Text Classification

Введение данных

В этом наборе данных в этом наборе данных в этом наборе данных содержится более 17 000 длинных текстов об описаниях приложений приложений, включая различные темы применения, связанные с повседневной жизнью, с общей суммой 119 категорий: «Такси»: 0, «Навигация по карту»: 1, «Бесплатный Wi-Fi»: 2, «прокат автомобилей»: 3, ...., «Женская»: 115, «Бизнес»: 116, «Cash»: 117, другие »: 118 (118.

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

Ссылка: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a код извлечения: U00V

Просмотр скрипта

Обучение модели Местоположение: Pyclue/Clue/Classification/iflytek/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

Отправить сценарий файла.

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4. Cmnli Language Dysuling задание китайская мульти-жанр NLI

Введение данных

Данные CMNLI состоит из двух частей: XNLI и MNLI. Данные поступают из художественной литературы, телефона, путешествий, правительства, сланца и т. Д. Первоначальные данные MNLI и XNLI были преобразованы на китайском и английском языке, сохранив оригинальный тренировочный набор, объединяя разработчик в XNLI и соответствовали MNLI в качестве разработчика CMNLI, сочетая тест в XNLI и несовместимые в MNLI в качестве CMNLI, и в CMNLI, и не выполняют позор. Этот набор данных может быть использован для определения взаимосвязи между данными двумя предложениями, которые являются последствиями, нейтральными и противоречивыми.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

Ссылка: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq код извлечения: Kigh

Просмотр скрипта

Учебная модель Местоположение сценария: Pyclue/Clue/Suffer_pair/cmnli/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

Отправить сценарий файла.

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5. Diagnostics SET CLUE_DIAGNOSTICS TEST_SET

Введение данных

Диагностические наборы, используемые для оценки эффективности различных моделей на явлениях китайского языка, обобщенные 9 лингвистами.

Используя модель, обученную на CMNLI, результаты этого диагностического набора напрямую прогнозируются. Формат представления согласуется с CMNLI. Вы можете увидеть результаты на странице сведений о ранжировании. (Примечание: этот набор данных содержит обучающий набор и набор тестов CMNLI)

Ссылка: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Код извлечения: U194

Просмотр скрипта

Расположение скрипта обучения: pyclue/clue/predent_pair/diagnostics/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

Отправить сценарий файла: pyclue/clue/predent_pair/diagnostics/predict.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. Наборы данных, поддерживаемые другими подсказками

Дополнительный.

Применить к пользовательским задачам

1. Классификация много классов

Описание задачи

Многоклассификационные задачи, такие как классификация текста, классификация эмоций и т. Д., Это могут принять две формы: ввод в одном предложении и ввод пары предложений.

Требования к данным

Справочник данных должен содержать хотя бы по крайней мере Train.txt, Dev.txt и Labels.txt Files, и могут быть добавлены файлы test.txt.

Сохранить форму формы:

Ввод с одним предложением (соответствующий task_type = 'single' в сценарии оценки): pyclue/examples/classification/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/single_data_template

Ввод пары предложений (соответствующий task_type = 'pairs' в сценарии оценки): pyclue/examples/classification/pairs_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/pairs_data_templates/blob/master/examples/classification/pairs_data_templates/blob/master/examples/classification/pairs_data_teplates/master/examples/classification/pairs_data_templ

ПРИМЕЧАНИЕ. T следует использовать в качестве сепаратора.

Просмотр скрипта

Обучение модели Местоположение: Pyclue/Примеры/классификация/Train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

Прогнозируемое местоположение сценария: Pyclue/Примеры/классификация/Predict.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb

2. Задача пары предложений (Twin Network) Пара предложений (SIAMESE)

Описание задачи

Приговор-задача (Twin Network), такой как сходное предложение к заданию и т. Д. , Отличающуюся от модели предложения к вход в задачи с несколькими классификациями: предложения в задачах с несколькими классификациями используют форму сплайсинга, подобную BERT, для ввода задачи, в то время как эта задача использует форму двойной сети.

Требования к данным

Справочник данных должен содержать хотя бы по крайней мере Train.txt, Dev.txt и Labels.txt Files, и могут быть добавлены файлы test.txt.

Сохранить форму формы:

Введите: pyclue/examples/predent_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

ПРИМЕЧАНИЕ. T следует использовать в качестве сепаратора.

Просмотр скрипта

Обучение модели Местоположение: Pyclue/Примеры/Suentence_pair/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

Прогнозируемое местоположение скрипта: Pyclue/Примеры/Predent_pair/Predict.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3. Задача текста (Twin Network) Сопоставление текста (SIAMESE)

иллюстрировать

Задачи сопоставления текста (Twin Network), такие как поиск FAQ, поиск по сравнению с QQ и другие задачи, используйте двойную сеть для генерации информации о внедрении для входных предложений и использования Hnswlib для получения наиболее похожих предложений.

Требования к данным

Каталог данных должен содержать хотя бы cache.txt, train.txt, dev.txt и файлы labels.txt, и вы можете добавить файлы test.txt.

Сохранить форму формы:

Ввод: Pyclue/Примеры/Text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

ПРИМЕЧАНИЕ. T следует использовать в качестве сепаратора.

Просмотр скрипта

Обучение модели Местоположение сценария: Pyclue/Примеры/Text_matching/train.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

Прогнозируемое местоположение скрипта: Pyclue/Примеры/Text_matching/Predict.ipynb

Ссылка: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

Обучение генерирует файлы

1. Модель файла

Файл модели содержит 10 последних файлов модели контрольной точки и файлов модели PB (10 файлов модели контрольной точки, которые лучше всего работают в тестовом наборе dev.txt).

2. Индикаторы процесса обучения

Индикаторные файлы (train_metrics.png), сгенерированные процессом обучения, являются точностью, тотальная_лос, Batch_loss, точность, отзыв и индикаторы F1.

3. Проверьте индикаторы процесса

Если существует проверка файла проверки.

Документация API

Обновлено.

Другие инструкции

Официальный адрес: https://github.com/cluebenchmark/pyclue

Адрес отладки: https://github.com/liushaoweihua/pyclue

Временная шкала

Обновление журнала

2019.12.05
- Первая версия Pyclue используется для быстрого оценки наборов данных подсказки (Text Classification, предложение к задаче);
2020.05.10
- Код пересматривается, а избыточный код объединяется (тестовая версия: Tensorflow 1.15.2). Чтобы упростить API, поддержка TPU временно удаляется в нижестоящих задачах;
- Поддерживает многоуровневые модели Bert, Albert и Roberta и может быть автоматически загружена и загружена в соответствии с указанным предварительно обученным названием языка;
- Поддерживает текстовую классификацию, пары предложений и задачи сопоставления текста;
- Используется для быстрого оценки набора данных подсказки (AFQMC/TNEWS/iflytek/cmnli) и генерировать приемлемые файлы подчинения ClueBenchmark;
- Применить к пользовательским задачам, быстро и быстро сгенерировать контрольные точки и форматы файлов моделей PB-модели с Tensorflow, которые поддерживают развернутые и могут загружать файлы модели PB для прогнозирования; Поддерживает проверку качества формата файла и сохраняет результаты распознавания ошибок в указанном каталоге.

Обновить план

2020.05 ~ 2020.08
- Поддерживает другую классификацию текста, сочетание предложений и задачи сопоставления текста;
- Поддерживает задачи маркировки последовательности;
- Поддерживает Xlnet, Ernie, Electra и т. Д.;
- Поддерживает предварительно обученную модель Word Vector (Word2VEC и т. Д.) И поддерживает несколько сетей нижних процессов;
2020.08 ~ 2020.10
- Поддержать задачи понимания прочитанного;
- Поддерживает TF 2.0;
2020.10 ~ 2020.12
- Подключитесь к высокоэффективному проекту оценки малой модели NLPCC 2020, поддерживая несколько небольших моделей;
- Интегрирует модель Pytorch, которую подсказка уже поддерживала.

Расширять

Дополнительная информация

Версия 1.0.0
Тип AI Исходный код
Время обновления 2025-09-07
размер 136.25KB
От Github

Связанные приложения

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03