PyCLUE -Download - PyCLUE Source Code Download

PyCLUE

AI-Quellcode

1.0.0

Herunterladen

Pyclue

Python Toolkit für chinesisches Sprachverständnis Bewertungsbenchmark.

Das Python -Toolkit für das chinesische Verständnis für die Bewertung von Bewertungsbenchmarks kann repräsentative Datensätze und Benchmark -Modelle (vorbereitet) schnell bewerten und geeignete Benchmark -Modelle (PretRained) für ihre eigenen Daten für die schnelle Anwendung auswählen.

Über Hinweis

Datensätze, Baselines, vorgebildete Modelle, Korpus und Rangliste

Bewertungsbenchmarks für chinesisches Sprachverständnis, einschließlich repräsentativer Datensätze, Benchmark -Modelle (vorbereitete) Modelle, Korpus und Ranglisten.

Wir werden eine Reihe von Datensätzen auswählen, die bestimmten repräsentativen Aufgaben als Datensatz für unseren Test -Benchmark entsprechen. Diese Datensätze decken verschiedene Aufgaben, Datenvolumen und Aufgabenschwierigkeiten ab.

Pyclue installieren

Jetzt kann Pyclue über PIP installiert werden:

pip install --upgrade PyCLUE

Oder installieren Sie Pyclue direkt per Git -Klon:

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

Benchmark -Modell (vorbereitet)

Vorausgebildete Sprachmodelle werden unterstützt

Bert-Zh
Bert-wwm-ot
ALBERT_XLARGE_ZH_BRIGHTMART
ALBERT_LARGE_ZH_BRIGHTMART
ALBERT_BASE_ZH_BRIGHTMART
ALBERT_BASE_EXT_ZH_BRIGHTMART
ALBERT_SMALL_ZH_BRIGHTMART
ALBERT_TINY_ZH_BRIGHTMART
Roberta_Zh_BrightMart
Roberta_WWM_EXT_ZH_BRIGHTMART
Roberta_WWM_EXT_LARGE_ZH_BRIGHTMART

Warten auf Unterstützung

Xlnet_mid
Ernie_Base

Bewerten Sie schnell Hinweisdatensätze

Datensatzeinführung und Download

Hinweis: Der Datensatz steht im Einklang mit dem von Cluebenchmark bereitgestellten Datensatz und wird nur im Format entsprechend geändert, um dem Pyclue -Projekt zu entsprechen.

1. AFQMC Ant Financial Semantic Ähnlichkeit

Dateneinführung

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

Link: https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg Extraktionscode: KSD1

Bewertungsskript

Trainingsmodellskript Standort: pyclue/clue/surt_pair/afqmc/train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

Dateiskript senden Ort: pyclue/cLUE/surt_pair/afqmc/predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. Tnews 'heutige Schlagzeilen Chinesische Nachrichten (Kurztext) Klassifizierungen Kurzer Textklassifizierungen für Nachrichten

Dateneinführung

Dieser Datensatz stammt aus dem Nachrichtenbereich von Toutiao, und insgesamt 15 Kategorien von Nachrichten wurden extrahiert, darunter Tourismus, Bildung, Finanzen, Militär usw.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

Link: https://pan.baidu.com/s/1rs9oxolokgwi-Rgns_gtqq Extraktionscode: S9go

Bewertungsskript

Trainingsmodellskript Standort: Pyclue/Hinweis/Klassifizierung/Tnews/Train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

Dateiskript senden Ort: Pyclue/Hinweis/Klassifizierung/TNews/Predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/Predict.ipynb

3.. Iflytek 'lange Textklassifizierung

Dateneinführung

In diesem Datensatz gibt es mehr als 17.000 lange Textdaten über App-Anwendungsbeschreibungen, einschließlich verschiedener Anwendungsthemen im Zusammenhang mit dem täglichen Leben, mit insgesamt 119 Kategorien: "Taxi": 0, "Kartennavigation": 1, "Free WiFi": 2, "Autovermietung": 3, "weiblich": 115, 116, 116, "Cash Collection": 117, 117 ".

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

Link: https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a Extraktionscode: U00V

Überprüfungskript

Trainingsmodellskript Standort: Pyclue/Hinweis/Klassifizierung/Iflytek/Train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

Dateiskript senden Ort: Pyclue/Hinweis/Klassifizierung/iflytek/predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4..

Dateneinführung

CMNLI -Daten bestehen aus zwei Teilen: xnli und mnli. Die Daten stammen aus Fiktion, Telefon, Reisen, Regierung, Schiefer usw. Die ursprünglichen MNLI -Daten und XNLI -Daten wurden in Chinesisch und Englisch transformiert, wobei das ursprüngliche Trainingssatz beibehalten wurde. Er kombinierte den Entwickler in Xnli und passte in MNLI als Dev of CMNLI -T -CMNLI -Test und Mismatching in MNLI als CMNLI -Test zusammen. Dieser Datensatz kann verwendet werden, um die Beziehung zwischen den angegebenen zwei Sätzen zu bestimmen, die Auswirkungen, Neutrale und widersprüchlich sind.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

Link: https://pan.baidu.com/S/1MFT31CBS2G6E69AS6H65DQ Extraktionscode: Kigh

Überprüfungskript

Trainingsmodellskript Standort: pyclue/clue/surt_pair/cmnli/train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

Dateiskript senden Ort: Pyclue/Clue/Satz_Pair/cmnli/predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/Predict.ipynb

5. Diagnostics Set Clue_diagnostics test_set

Dateneinführung

Diagnosessätze zur Bewertung der Leistung verschiedener Modelle zu Phänomenen chinesischer Sprache, die von 9 Linguisten zusammengefasst wurden.

Unter Verwendung des auf CMNLI ausgebildeten Modells werden die Ergebnisse dieses Diagnosesatzes direkt vorhergesagt. Das Einreichungsformat steht im Einklang mit CMNLI. Sie können die Ergebnisse auf der Seite "Ranking -Details" sehen. (Hinweis: Dieser Datensatz enthält den Trainingssatz und den Testsatz von CMNLI).

Link: https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw Extraktionscode: U194

Überprüfungskript

Trainingsmodellskript Standort: pyclue/clue/surt_pair/diagnostics/train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

Dateiskript senden Ort: Pyclue/Clue/Satz_Pair/Diagnostics/Predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. Datensätze, die von anderen Hinweisen unterstützt werden

Ergänzend.

Bewerben Sie sich auf benutzerdefinierte Aufgaben

1. Multi -Class -Klassifizierung

Aufgabenbeschreibung

Multi-Classifizierungs-Aufgaben wie Textklassifizierung, Emotionsklassifizierung usw. können zwei Formen akzeptieren: Eingabe für ein Satz und Satzpaar.

Datenanforderungen

Das Datenverzeichnis sollte mindestens train.txt-, dev.txt- und labels.txt -Dateien enthalten, und die test.txt -Dateien können hinzugefügt werden.

Formularreferenz speichern:

Einzel Satzeingabe (entsprechend task_type = 'single' im Bewertungsskript): pyclue/Beispiele/klassifiziert/einzeln_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/Single_data_Templates

Satzpaareingabe (entsprechend task_type = 'pairs' im Bewertungsskript): pyclue/Beispiele/Klassifizierung/pairs_data_templates/

HINWEIS: T sollte als Trennzeichen verwendet werden.

Überprüfungskript

Trainingsmodellskript Ort: Pyclue/Beispiele/Klassifizierung/Train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

Vorhergesagtes Skriptort: Pyclue/Beispiele/Klassifizierung/Prädikt.IPynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/Predict.ipynb

2. Satzpaar Task (Twin Network) Satzpaar (Siamese)

Aufgabenbeschreibung

Satz-Task (Twin Network), wie beispielsweise ähnliche Satz-zu-Tasks usw. , unterscheidet sich vom Satz-zu-Einsatz-Modell bei Multi-Klassifizierungsaufgaben: Sätze in Multi-Classifizierungsaufgaben verwenden Bert-ähnliches Spleißform, um die Aufgabe einzugeben, während diese Aufgabe die Form eines Twin-Netzwerks verwendet.

Datenanforderungen

Das Datenverzeichnis sollte mindestens train.txt-, dev.txt- und labels.txt -Dateien enthalten, und die test.txt -Dateien können hinzugefügt werden.

Formularreferenz speichern:

Geben Sie: pyclue/Beispiele/Satz_Pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

HINWEIS: T sollte als Trennzeichen verwendet werden.

Überprüfungskript

Trainingsmodellskript Standort: Pyclue/Beispiele/Satz_Pair/Train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

Vorhergesagtes Skriptort: Pyclue/Beispiele/Satz_Pair/Predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/prredict.ipynb

3. Textübereinstimmungsaufgabe (Twin Network) Text Matching (Siamese)

veranschaulichen

Textübereinstimmungsaufgaben (Twin Network) wie FAQ -Suche, QQ -Übereinstimmungssuche und andere Aufgaben verwenden das Twin -Netzwerk, um Einbettungsinformationen für Eingabesätze zu generieren und HNSWLIB zu verwenden, um die ähnlichsten Sätze abzurufen.

Datenanforderungen

Das Datenverzeichnis sollte mindestens cache.txt, train.txt, dev.txt und labels.txt enthalten, und Sie können test.txt -Dateien hinzufügen.

Formularreferenz speichern:

Eingabe: pyclue/Beispiele/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

HINWEIS: T sollte als Trennzeichen verwendet werden.

Überprüfungskript

Trainingsmodellskript Standort: Pyclue/Beispiele/text_matching/train.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

Vorhergesagter Skriptsposition: Pyclue/Beispiele/text_matching/predict.ipynb

Referenz: https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/Predict.ipynb

Das Training generiert Dateien

1. Modelldatei

Die Modelldatei enthält 10 neueste Checkpoint -Modelldateien und PB -Modelldateien (10 Checkpoint -Modelldateien, die im Testsatz Dev.txt am besten ausreichen).

2. Trainingsprozessindikatoren

Die durch den Schulungsprozess generierten Indikatordateien (train_metrics.png) sind Genauigkeit, Total_loss, batch_loss, Precision, Relain und F1 -Indikatoren.

3.. Überprüfen Sie Prozessindikatoren

Wenn es einen Überprüfungsdateistest gibt, und jede Zeile der Verifizierungsdatei mit true_label beginnt, wird der Indikator für das beste Modell in der Verifizierungsdatei gedruckt.

API -Dokumentation

Aktualisiert.

Andere Anweisungen

Offizielle Adresse: https://github.com/cluebenchmark/pyclue

Debugging -Adresse: https://github.com/liushaweiheihua/pyclue

Zeitleiste

Aktualisieren Sie das Protokoll

2019.12.05
- Die erste Version von Pyclue wird verwendet, um Hinweisdatensätze (Textklassifizierung, Satz-zu-Task) schnell zu bewerten.
2020.05.10
- Der Code wird überarbeitet und der redundante Code fusioniert (Testversion: TensorFlow 1.15.2). Um die API zu vereinfachen, wird die TPU -Unterstützung bei nachgeschalteten Aufgaben vorübergehend entfernt.
- Unterstützt die Multi-Version von Bert-, Albert- und Roberta-Modellen und kann automatisch nach dem angegebenen vorgebreiteten Sprachnamen heruntergeladen und geladen werden.
- Unterstützt Textklassifizierung, Satzpaarung und Textanpassungsaufgaben;
- Wird verwendet, um den Hinweisdatensatz (AFQMC/Tnews/Iflytek/CMNLI) schnell zu bewerten und die akzeptablen Einreichungsdateien von Cluebenchmark zu generieren;
- Bewerben Sie sich auf benutzerdefinierte Aufgaben, generieren Sie schnell und schnell Checkpoint- und TensorFlow-Sendern-PB-Modelldateiformate, die die bereitgestellten PB-Modelldateien für die Vorhersage laden. Unterstützt die Qualitätsprüfung der Dateiformat und speichert die Ergebnisse der Fehlererkennung in das angegebene Verzeichnis.

Aktualisieren Sie den Plan

2020.05 ~ 2020.08
- Unterstützt andere Textklassifizierung, Satzpaarung und Textanpassungsaufgaben;
- Unterstützt Sequenzmarkierungsaufgaben;
- Unterstützt XLNET, Ernie, Electra usw.;
- Unterstützt das vorgebildete Wortvektormodell (WORD2VEC usw.) und unterstützt mehrere nachgeschaltete Netzwerke.
2020.08 ~ 2020.10
- Unterstützung des Leseverständnisses;
- Unterstützt TF 2.0;
2020.10 ~ 2020.12
- Verbindung zum NLPCC 2020 LightLM High-Performance-Projekt mit kleiner Modellbewertung, das mehrere kleine Modelle unterstützt;
- Integriert das Pytorch -Modell, das der Hinweis bereits unterstützt hat.

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2025-09-07
Größe 136.25KB
Kommt von Github

Ähnliche Anwendungen

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03