Téléchargement de PyCLUE - Téléchargement du code source PyCLUE

PyCLUE

Code Source AI

1.0.0

Télécharger

Pyclue

Python Toolkit pour la compréhension de la langue chinoise Benchmark.

La boîte à outils Python pour les repères d'évaluation de la compréhension de la langue chinoise peut rapidement évaluer les ensembles de données représentatifs et les modèles de référence (pré-entraînés), et sélectionner des modèles de référence appropriés (pré-entraînés) pour leurs propres données pour une application rapide.

À propos de l'indice

ensembles de données, lignes de base, modèles pré-formés, corpus et classement

Benchmarks d'évaluation de la compréhension de la langue chinoise, y compris des ensembles de données représentatifs, des modèles de référence (pré-entraînés), du corpus et des classements.

Nous sélectionnerons une série d'ensembles de données correspondant à certaines tâches représentatives comme ensemble de données pour notre référence de test. Ces ensembles de données couvrent différentes tâches, volume de données et difficulté de tâche.

Installer Pyclue

Maintenant, Pyclue peut être installé via PIP:

pip install --upgrade PyCLUE

Ou installer directement Pyclue par Git Clone:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

Modèle de référence (pré-entraîné)

Les modèles de langue pré-formés sont pris en charge

Bert-zh
Bert-wwm-
albert_xlarge_zh_brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
ROBERTA_ZH_BRIGHTMART
ROBERTA_WWM_EXT_ZH_BRIGHTMART
ROBERTA_WWM_EXT_LARGE_ZH_BRIGHTMART

En attente de soutien

Xlnet_mid
Ernie_Base

Évaluez rapidement les ensembles de données d'indices

Introduction et téléchargement de l'ensemble de données

Remarque: L'ensemble de données est cohérent avec l'ensemble de données fourni par ClueBenchmark et n'est modifié qu'en conséquence au format pour convenir au projet Pyclue.

1. Afqmc Ant Financial Semantic similitude

Introduction des données

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

Lien: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg Code d'extraction: KSD1

Script d'évaluation

Modèle de formation Script Emplacement: Pyclue / Clue / phrase_pair / afqmc / train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/sence_pair/afqmc/train.ipynb

Soumettre l'emplacement du script de fichier: Pyclue / Clue / phrase_pair / afqmc / prédict.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/sence_pair/afqmc/predict.ipynb

2. Les titres du TNEWS Todays Chinese News (Texte court) Classifieds Text court classifié pour les nouvelles

Introduction des données

Cet ensemble de données vient de la section des nouvelles de Toutiao, et un total de 15 catégories de nouvelles ont été extraites, notamment le tourisme, l'éducation, la finance, l'armée, etc.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

Lien: https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq Code d'extraction: S9go

Script d'évaluation

Modèle de formation Script Emplacement: pyclue / indice / classification / tnews / train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

Soumettre l'emplacement du script de fichier: Pyclue / Clue / Classification / Tnews / Predict.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3. Classification du texte long d'Iflytek

Introduction des données

Il y a plus de 17 000 données de longue date étiquetées sur les descriptions d'applications de l'application dans cet ensemble de données, y compris divers sujets d'application liés à la vie quotidienne, avec un total de 119 catégories: "Taxi": 0, "Map Navigation": 1, "WiFi gratuit": 2, "Car Rental": 3, ...., "Female": 115, "Business": 116, "Cash Collection": 117, "Autres": 118 (Représenté par 0-18 respecté).

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

Lien: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a Code d'extraction: u00v

Examen du script

Modèle de formation Script Emplacement: pyclue / indice / classification / iflytek / train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

Soumettre l'emplacement du script de fichier: Pyclue / Clue / Classification / Iflytek / Predict.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4. Tâche de raisonnement de la langue CMNLI

Introduction des données

Les données CMNLI se compose de deux parties: XNLI et MNLI. Les données proviennent de la fiction, du téléphone, des voyages, du gouvernement, de l'ardoise, etc. Les données MNLI d'origine et les données XNLI ont été transformées en chinois et en anglais, en conservant l'ensemble de formation d'origine, en combinant le Dev dans XNLI et appariés en MNLI en tant que Dev of CMNLI, combinant le test dans XNLI et ne se déplaçant pas dans MNLI comme CMNLI TEST, et perturbent l'ordre. Cet ensemble de données peut être utilisé pour déterminer la relation entre les deux phrases données qui sont des implications, des neutres et un contradictoire.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

Lien: https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq Code d'extraction: Kigh

Examen du script

Modèle de formation Script Emplacement: Pyclue / Clue / phrase_pair / cmnli / train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/sence_pair/cmnli/train.ipynb

Soumettre l'emplacement du script de fichier: Pyclue / Clue / phrase_pair / cmnli / prédict.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/sence_pair/cmnli/predict.ipynb

5. Diagnostics Set Clue_diagnostics Test_set

Introduction des données

Ensembles de diagnostic utilisés pour évaluer les performances de différents modèles sur les phénomènes de langue chinoise résumées par 9 linguistes.

En utilisant le modèle formé sur CMNLI, les résultats de cet ensemble de diagnostic sont directement prédits. Le format de soumission est cohérent avec CMNLI. Vous pouvez voir les résultats dans la page Détails de classement. (Remarque: cet ensemble de données contient l'ensemble de formation et l'ensemble de test de CMNLI)

Lien: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Code d'extraction: U194

Examen du script

Modèle de formation Script Emplacement: Pyclue / Clue / Phrase_pair / Diagnostics / Train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/sence_pair/diagnostics/train.ipynb

Soumettre l'emplacement du script de fichier: Pyclue / Clue / phrase_pair / Diagnostics / Predict.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/clue/sence_pair/diagnostics/predict.ipynb

6. ensembles de données pris en charge par d'autres indices

Supplémentaire.

Appliquer aux tâches personnalisées

1. Classification multi-classes

Description de la tâche

Les tâches multi-classification, telles que la classification du texte, la classification des émotions, etc., peuvent accepter deux formulaires: entrée de phrase unique et entrée de paire de phrases.

Exigences de données

Le répertoire de données doit contenir au moins des fichiers Train.txt, Dev.txt et Labels.txt, et les fichiers Test.txt peuvent être ajoutés.

Enregistrer la référence du formulaire:

Entrée de phrase unique (correspondant à task_type = 'single' dans le script d'évaluation): pyclue / exemples / classification / single_data_templates /, https://github.com/cluebenchmark/pyclue/blob/master/exemples/classification/single_data_templates

Entrée de la paire de phrases (correspondant à task_type = 'pairs' dans le script d'évaluation): pyclue / exemples / classification / paires_data_templates /, https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/pairs_data_templlate

Remarque: T doit être utilisé comme séparateur.

Examen du script

Modèle de formation Script Emplacement: pyclue / exemples / classification / train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

Emplacement du script prévu: pyclue / exemples / classification / prédire.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb

2. Paire de phrases Tâche de phrase (réseau jumeau) Paire de phrases (Siamese)

Description de la tâche

Phrase à tâche (réseau jumeau), comme une phrase à tâche similaire, etc. Différente du modèle de phrase à entrée dans des tâches multi-classification: les phrases dans les tâches multi-classification utilisent un formulaire d'épissage de type Bert pour saisir la tâche, tandis que cette tâche utilise la forme d'un réseau jumeau.

Exigences de données

Le répertoire de données doit contenir au moins des fichiers Train.txt, Dev.txt et Labels.txt, et les fichiers Test.txt peuvent être ajoutés.

Enregistrer la référence du formulaire:

Entrez: pyclue / exemples / phrase_pair / data_templates /, https://github.com/cluebenchmark/pyclue/blob/master/examples/sence_pair/data_templates

Remarque: T doit être utilisé comme séparateur.

Examen du script

Modèle de formation Script Emplacement: pyclue / exemples / phrase_pair / train.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/examples/sence_pair/train.ipynb

Emplacement du script prévu: pyclue / exemples / phrase_pair / prédiction.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/examples/sence_pair/predict.ipynb

3. Tâche de correspondance du texte (réseau jumeau) correspondant au texte (Siamois)

illustrer

Les tâches de correspondance de texte (réseau jumeau), telles que la recherche FAQ, la recherche de correspondance QQ et d'autres tâches, utilisent le réseau jumeau pour générer des informations d'intégration pour les phrases d'entrée et utiliser HNSWLIB pour récupérer les phrases les plus similaires.

Exigences de données

Le répertoire de données doit contenir au moins les fichiers Cache.txt, train.txt, dev.txt et labels.txt, et vous pouvez ajouter des fichiers test.txt.

Enregistrer la référence du formulaire:

Entrée: pyclue / exemples / text_matching / data_templates /, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_template

Remarque: T doit être utilisé comme séparateur.

Examen du script

Emplacement du script du modèle de formation: pyclue / exemples / text_matching / trains.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

Emplacement du script prévu: pyclue / exemples / text_matching / prédiction.ipynb

Référence: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

La formation génère des fichiers

1. Fichier modèle

Le fichier de modèle contient 10 derniers fichiers de modèle de point de contrôle et fichiers de modèle PB (10 fichiers de modèle de point de contrôle qui fonctionnent le mieux dans le test de test dev.txt).

2. Indicateurs de processus de formation

Les fichiers indicateurs (trains_metrics.png) générés par le processus de formation sont la précision, les indicateurs Total_loss, Batch_loss, Precision, Rappel et F1.

3. Vérifiez les indicateurs de processus

S'il existe un fichier de vérification test.txt et que chaque ligne du fichier de vérification commence par true_label, l'indicateur du meilleur modèle du fichier de vérification est imprimé.

Documentation API

Mis à jour.

Autres instructions

Adresse officielle: https://github.com/cluebenchmark/pyclue

Adresse de débogage: https://github.com/liushaoweihua/pyclue

Chronologie

Mettre à jour le journal

2019.12.05
- La première version de Pyclue est utilisée pour évaluer rapidement les ensembles de données d'indices (classification du texte, phrase à tâche);
2020.05.10
- Le code est révisé et le code redondant est fusionné (version de test: TensorFlow 1.15.2). Pour simplifier l'API, le support TPU est temporairement supprimé sur les tâches en aval;
- Prend en charge la multi-version des modèles Bert, Albert et Roberta, et peut être téléchargé et chargé automatiquement en fonction du nom de langue pré-formé spécifié;
- Prend en charge la classification du texte, l'appariement des phrases et les tâches de correspondance du texte;
- Utilisé pour évaluer rapidement l'ensemble de données d'indice (afqmc / tnews / iflytek / cmnli) et générer des fichiers de soumission acceptables de ClueBenchmark;
- S'appliquer aux tâches personnalisées, générez rapidement et rapidement des formats de fichiers de modèle PB de contrôle et de Tensorflow qui prennent en charge le déployé et peuvent charger des fichiers de modèle PB pour la prédiction; Prend en charge l'inspection de la qualité du format de fichier et enregistre les résultats de reconnaissance des erreurs au répertoire spécifié.

Plan de mise à jour

2020.05 ~ 2020.08
- Prend en charge d'autres tâches de classification de texte, d'appariement de phrases et de correspondance de texte;
- Prend en charge les tâches de marquage de séquence;
- Prend en charge XLNET, Ernie, Electra, etc.;
- Prend en charge le modèle de vecteur de mot pré-formé (Word2Vec, etc.) et prend en charge plusieurs réseaux en aval;
2020.08 ~ 2020.10
- Soutenir les tâches de compréhension de la lecture;
- Prend en charge TF 2.0;
2020.10 ~ 2020.12
- Connectez-vous au projet d'évaluation des petits modèles NLPCC 2020 Lightlm, soutenant plusieurs petits modèles;
- Intègre le modèle Pytorch que l'indice a déjà pris en charge.

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2025-09-07
taille 136.25KB
Provenant de Github

Applications connexes

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
ML stack

Code Source AI

1.0.0
awesome free chatgpt

Code Source AI

1.0.0
pywin_contextmenu

Code Source AI

Version update
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout