PyCLUEのダウンロードPyCLUEソースコードのダウンロード

PyCLUE

AI ソースコード

1.0.0

ダウンロード

ピクロー

中国語を理解するためのPythonツールキット評価ベンチマーク。

中国語を理解するためのPython Toolkit評価ベンチマークは、代表的なデータセットとベンチマーク（前処理）モデルを迅速に評価し、迅速に適用するために独自のデータに適切なベンチマーク（前処理）モデルを選択できます。

手がかりについて

データセット、ベースライン、事前に訓練されたモデル、コーパス、リーダーボード

代表的なデータセット、ベンチマーク（前）モデル、コーパス、ランキングなど、中国語理解評価ベンチマーク。

テストベンチマークのデータセットとして、特定の代表タスクに対応する一連のデータセットを選択します。これらのデータセットは、さまざまなタスク、データボリューム、およびタスクの難易度をカバーしています。

Pyclueをインストールします

これで、PyceをPIP経由で設置できます。

pip install --upgrade PyCLUE

または、GitクローンでPyclueを直接取り付けます。

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

ベンチマーク（前処理）モデル

事前に訓練された言語モデルがサポートされています

bert-zh
bert-wwm-ext
albert_xlarge_zh_brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
roberta_zh_brightmart
roberta_wwm_ext_zh_brightmart
roberta_wwm_ext_large_zh_brightmart

サポートを待っています

xlnet_mid
ernie_base

手がかりのデータセットをすばやく評価します

データセットの紹介とダウンロード

注：データセットは、Cluebenchmarkによって提供されるデータセットと一致しており、Pyclueプロジェクトに合わせて形式でのみ変更されます。

1。AFQMCAnt Financial Semanticの類似性

データの紹介

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

リンク：https：//pan.baidu.com/s/1it1simjbsrnl1deoboogxg抽出コード：KSD1

評価スクリプト

トレーニングモデルスクリプトの場所：Pyclue/Clue/cente_pair/afqmc/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

ファイルスクリプトの送信場所：Pyclue/Clue/cente/cente_pair/afqmc/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2。TNEWSの今日の見出し中国のニュース（短いテキスト）分類されたニュースの短いテキストクラシファイド

データの紹介

このデータセットは、Toutiaoのニュースセクションから来ており、観光、教育、財政、軍事など、合計15のカテゴリのニュースが抽出されました。

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

リンク：https：//pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq抽出コード：S9go

評価スクリプト

トレーニングモデルスクリプトの場所：Pycle/Clue/classification/tnews/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

ファイルスクリプトの送信場所：Pyclue/Clue/classification/tnews/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3。Iflytekの長いテキスト分類

データの紹介

このデータセットには、日常生活に関連するさまざまなアプリケーショントピックを含むアプリアプリケーションの説明に関する17,000を超える長いテキストがあります。合計119のカテゴリ：「タクシー」：0、「マップナビゲーション」：1、「無料wifi」：2、「レンタル」：3、....、「女性」：115、「ビジネス」：116、「117」：117、」

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

リンク：https：//pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a抽出コード：u00v

スクリプトを確認します

トレーニングモデルスクリプトの場所：Pyclue/Clue/classification/iflytek/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

ファイルスクリプトの送信場所：Pyclue/Clue/classification/iflytek/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4。CMNLI言語推論タスク中国のマルチジャンルnli

データの紹介

CMNLIデータは、XNLIとMNLIの2つの部分で構成されています。データは、フィクション、電話、旅行、政府、スレートなどからのものです。元のMNLIデータとXNLIデータは中国語と英語で変換され、元のトレーニングセットを保持し、XNLIの開発者をCMNLIの開発者と一致させ、XNLIのテストとCMNLIテストとしてMNLIで誤ったテストを組み合わせ、注文を乱用しました。このデータセットを使用して、意味、中立、および矛盾する2つの文の関係を決定することができます。

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

リンク：https：//pan.baidu.com/s/1mft31cbs2g6e69as6h65dq抽出コード：Kigh

スクリプトを確認します

トレーニングモデルスクリプトの場所：Pyclue/Clue/cente_pair/cmnli/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

ファイルスクリプトの送信場所：Pyclue/Clue/cente/cente_pair/cmnli/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5。診断セットClue_diagnostics test_set

データの紹介

9人の言語学者が要約した中国語現象でのさまざまなモデルのパフォーマンスを評価するために使用される診断セット。

CMNLIでトレーニングされたモデルを使用して、この診断セットの結果が直接予測されます。提出形式は、CMNLIと一致しています。ランキングの詳細ページで結果を確認できます。（注：このデータセットには、CMNLIのトレーニングセットとテストセットが含まれています）

リンク：https：//pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw抽出コード：U194

スクリプトを確認します

トレーニングモデルスクリプトの場所：Pyclue/Clue/cente/cente_pair/diganostics/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

ファイルスクリプトの送信場所：Pyclue/Clue/cente/cente_pair/diganostics/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6.他の手がかりによってサポートされているデータセット

補足。

カスタムタスクに適用します

1。マルチクラス分類

タスクの説明

テキスト分類、感情分類などの多分類タスクは、単一文の入力と文のペア入力の2つの形式を受け入れることができます。

データ要件

データディレクトリには、少なくともtrain.txt、dev.txt、labels.txtファイルを含める必要があり、test.txtファイルを追加できます。

フォームリファレンスを保存します：

単一文の入力（評価スクリプトのtask_type = 'single'に対応）：Pyclue/examples/classification/single_data_templates/、https：//github.com/cluebenchmark/pyclue/blob/master/examplys/classification/single_data_templates

文ペア入力（評価スクリプトのtask_type = 'pairs'に対応）：Pyclue/examples/classification/pairs_data_templates/、https：//github.com/cluebenchmark/pyclue/blob/master/examples/classification/pairs_data_templates

注： tはセパレーターとして使用する必要があります。

スクリプトを確認します

トレーニングモデルスクリプトの場所：Pycle/Examples/Classification/Train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

予測されたスクリプトの場所：Pyclue/Examples/classification/predict.ipynb

リファレンス：https：//github.com/cluebenchmark/pyclue/blob/master/examples/classifigision/predict.ipynb

2。文ペアタスク（ツインネットワーク）文ペア（シャム）

タスクの説明

マルチ分類タスクの文と入力モデルとは異なる、文とタスクの文章（ツインネットワーク）：マルチ分類タスクの文はBERTのようなスプライシングフォームを使用してタスクを入力しますが、このタスクはツインネットワークの形式を使用します。

データ要件

データディレクトリには、少なくともtrain.txt、dev.txt、labels.txtファイルを含める必要があり、test.txtファイルを追加できます。

フォームリファレンスを保存します：

入力：Pyclue/examples/cente_pair/data_templates/、https：//github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

注： tはセパレーターとして使用する必要があります。

スクリプトを確認します

トレーニングモデルスクリプトの場所：Pyclue/Examples/cente_pair/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

予測されたスクリプトの場所：Pyclue/Examples/cente_pair/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3。テキストマッチングタスク（ツインネットワーク）テキストマッチング（シャム）

説明します

FAQ検索、QQマッチング検索、その他のタスクなどのテキストマッチングタスク（ツインネットワーク）は、ツインネットワークを使用して入力文の埋め込み情報を生成し、HNSWLIBを使用して最も類似した文を取得します。

データ要件

データディレクトリには、少なくともcache.txt、train.txt、dev.txt、labels.txtファイルを含める必要があり、test.txtファイルを追加できます。

フォームリファレンスを保存します：

入力：Pyclue/Examples/text_matching/data_templates/、https：//github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

注： tはセパレーターとして使用する必要があります。

スクリプトを確認します

トレーニングモデルスクリプトの場所：Pyclue/Examples/text_matching/train.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

予測されたスクリプトの場所：Pyclue/Examples/text_matching/predict.ipynb

参照：https：//github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

トレーニングはファイルを生成します

1。モデルファイル

モデルファイルには、10個の最新のチェックポイントモデルファイルとPBモデルファイル（テストセットdev.txtで最適な10個のチェックポイントモデルファイル）が含まれています。

2。トレーニングプロセスインジケーター

トレーニングプロセスによって生成されたインジケータファイル（train_metrics.png）は、精度、total_loss、batch_loss、precision、recall、f1インジケーターです。

3.プロセスインジケーターを確認します

検証ファイルtest.txtがあり、検証ファイルの各行がtrue_labelで始まる場合、検証ファイルの最適なモデルのインジケーターが印刷されます。

APIドキュメント

更新。

その他の指示

公式住所：https：//github.com/cluebenchmark/pyclue

デバッグアドレス：https：//github.com/liushaoweihua/pyclue

タイムライン

ログを更新します

2019.12.05
- Pyclueの最初のバージョンは、手がかりのデータセット（テキスト分類、文からタスク）をすばやく評価するために使用されます。
2020.05.10
- コードが改訂され、冗長コードがマージされます（テストバージョン：TensorFlow 1.15.2）。 APIを簡素化するために、TPUサポートはダウンストリームタスクで一時的に削除されます。
- Bert、Albert、およびRobertaモデルのマルチバージョンをサポートし、指定された事前訓練を受けた言語名に従って自動的にダウンロードしてロードできます。
- テキスト分類、文のペアリング、およびテキストマッチングタスクをサポートします。
- Clueデータセット（AFQMC/TNEWS/IFLYTEK/CMNLI）を迅速に評価し、Cluebenchmarkの許容可能な提出ファイルを生成するために使用されます。
- カスタムタスクに適用し、展開をサポートするサポートし、予測のためにPBモデルファイルをロードできるCheckPointおよびTensorflowを介してPBモデルファイル形式を迅速かつ迅速に生成します。ファイル形式の品質検査をサポートし、指定されたディレクトリにエラー認識結果を保存します。

プランを更新します

2020.05〜2020.08
- 他のテキスト分類、文のペアリング、およびテキストマッチングタスクをサポートします。
- シーケンスラベル付けタスクをサポートします。
- XLNET、アーニー、エレクトラなどをサポートしています。
- 事前に訓練された単語ベクトルモデル（Word2Vecなど）をサポートし、複数のダウンストリームネットワークをサポートします。
2020.08〜2020.10
- 読解タスクをサポートします。
- TF 2.0をサポートします。
2020.10〜2020.12
- NLPCC 2020 LightLM High-Performance Small Model Evaluation Projectに接続し、複数の小型モデルをサポートします。
- 手がかりがすでにサポートしているPytorchモデルを統合します。

拡大する

追加情報

バージョン 1.0.0
タイプ AI ソースコード
更新時間 2025-09-07
サイズ 136.25KB
から Github