PyCLUE 다운로드 PyCLUE 소스 코드 다운로드

PyCLUE

AI 소스 코드

1.0.0

다운로드

Pyclue

중국어 이해를위한 Python 툴킷 평가 평가 벤치 마크.

중국어 이해를위한 Python 툴킷 평가 평가 벤치 마크는 대표적인 데이터 세트 및 벤치 마크 (사전 간) 모델을 신속하게 평가하고 빠른 응용 프로그램을 위해 자체 데이터에 대한 적절한 벤치 마크 모델을 선택할 수 있습니다.

단서에 대해

데이터 세트, 기준선, 미리 훈련 된 모델, 코퍼스 및 리더 보드

대표 데이터 세트, 사전 마크 (사전 간) 모델, 코퍼스 및 순위를 포함한 중국어 이해 평가 벤치 마크.

테스트 벤치 마크의 데이터 세트로 특정 대표 작업에 해당하는 일련의 데이터 세트를 선택합니다. 이 데이터 세트는 다양한 작업, 데이터 볼륨 및 작업 난이도를 다룹니다.

Pyclue를 설치하십시오

이제 Pyclue는 PIP를 통해 설치할 수 있습니다.

pip install --upgrade PyCLUE

또는 git 클론으로 Pyclue를 직접 설치하십시오.

pip install git+https://www.github.com/CLUEBenchmark/PyCLUE.git

벤치 마크 (사방) 모델

미리 훈련 된 언어 모델이 지원됩니다

Bert-Zh
Bert-WWM-EXT
Albert_xlarge_zh_brightmart
albert_large_zh_brightmart
albert_base_zh_brightmart
albert_base_ext_zh_brightmart
albert_small_zh_brightmart
albert_tiny_zh_brightmart
Roberta_ZH_BRIGHTMART
roberta_wwm_ext_zh_brightmart
roberta_wwm_ext_large_zh_brightmart

지원을 기다리고 있습니다

xlnet_mid
ernie_base

단서 데이터 세트를 신속하게 평가합니다

데이터 세트 소개 및 다운로드

참고 : 데이터 세트는 ClueBenchmark에서 제공하는 데이터 세트와 일치하며 Pyclue 프로젝트에 맞게 형식으로만 수정됩니다.

1. AFQMC Ant Financial Semantic 유사성

데이터 소개

数据量：训练集（34334）验证集（4316）测试集（3861）
例子：
{"sentence1": "双十一花呗提额在哪", "sentence2": "里可以提花呗额度", "label": "0"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，句子相似度标签。其中label标签，1 表示sentence1和sentence2的含义类似，0表示两个句子的含义不同。

링크 : https://pan.baidu.com/s/1it1simjbsrnl1deoboogxg 추출 코드 : KSD1

평가 스크립트

교육 모델 스크립트 위치 : Pyclue/clue/sentence_pair/afqmc/train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/train.ipynb

파일 제출 스크립트 위치 : pyclue/clue/sentence_pair/afqmc/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/afqmc/predict.ipynb

2. Tnews의 오늘의 헤드 라인 중국 뉴스 (짧은 텍스트) 분류 된 짧은 텍스트 분류 뉴스

데이터 소개

이 데이터 세트는 Toutiao의 뉴스 섹션에서 나 왔으며 관광, 교육, 금융, 군대 등을 포함하여 총 15 개의 뉴스가 추출되었습니다.

数据量：训练集(266,000)，验证集(57,000)，测试集(57,000)
例子：
{"label": "102", "label_des": "news_entertainment", "sentence": "江疏影甜甜圈自拍，迷之角度竟这么好看，美吸引一切事物"}
每一条数据有三个属性，从前往后分别是 分类ID，分类名称，新闻字符串（仅含标题）。

링크 : https://pan.baidu.com/s/1rs9oxolokgwi-rgns_gtqq 추출 코드 : S9go

평가 스크립트

교육 모델 스크립트 위치 : Pyclue/단서/분류/tnews/train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/train.ipynb

파일 스크립트 제출 위치 : Pyclue/clue/classification/tnews/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/tnews/predict.ipynb

3. Iflytek '긴 텍스트 분류

데이터 소개

이 데이터 세트에는 일상 생활과 관련된 다양한 애플리케이션 주제를 포함하여 앱 응용 프로그램 설명에 대한 17,000 개가 넘는 긴 텍스트가 있으며, "택시": 0, "Map Navigation": 1, "Free Wi-Fi": "2,"Car Rental ": 3, ....,"여성 ": 116,"Cash Collection ": 118 (0.118).

数据量：训练集(12,133)，验证集(2,599)，测试集(2,600)
例子：
{"label": "110", "label_des": "社区超市", "sentence": "朴朴快送超市创立于2016年，专注于打造移动端30分钟即时配送一站式购物平台，商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式，更高效快捷的仓储配送模式，致力于成为更快、更好、更多、更省的在线零售平台，带给消费者更好的消费体验，同时推动中国食品安全进程，成为一家让社会尊敬的互联网公司。,朴朴一下，又好又快,1.配送时间提示更加清晰友好2.保障用户隐私的一些优化3.其他提高使用体验的调整4.修复了一些已知bug"}
每一条数据有三个属性，从前往后分别是 类别ID，类别名称，文本内容。

링크 : https://pan.baidu.com/s/1ekthxmgt1t038qto9vkr3a 추출 코드 : u00v

스크립트를 검토하십시오

교육 모델 스크립트 위치 : Pyclue/단서/분류/Iflytek/Train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/train.ipynb

파일 스크립트 제출 위치 : Pyclue/Clue/Classification/iflytek/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/classification/iflytek/predict.ipynb

4. CMNLI 언어 추론 과제 중국 다중 장르 NLI

데이터 소개

CMNLI 데이터는 XNLI와 MNLI의 두 부분으로 구성됩니다. 데이터는 소설, 전화, 여행, 정부, 슬레이트 등에서 비롯됩니다. 원래 MNLI 데이터 및 XNLI 데이터는 중국어와 영어로 변환되어 원래 교육 세트를 유지하고 XNLI의 개발자를 결합하고 CMNLI의 개발자로 MNLI로 일치시키고 CMNLI 테스트로 테스트를 결합하고 순서를 파괴했습니다. 이 데이터 세트는 주어진 두 문장 사이의 관계, 중립 및 모순 간의 관계를 결정하는 데 사용될 수 있습니다.

数据量：train(391,782)，matched(12,426)，mismatched(13,880)
例子：
{"sentence1": "新的权利已经足够好了", "sentence2": "每个人都很喜欢最新的福利", "label": "neutral"}
每一条数据有三个属性，从前往后分别是 句子1，句子2，蕴含关系标签。其中label标签有三种：neutral，entailment，contradiction。

링크 : https://pan.baidu.com/s/1mft31cbs2g6e69as6h65dq 추출 코드 : Kigh

스크립트를 검토하십시오

교육 모델 스크립트 위치 : Pyclue/clue/sentence_pair/cmnli/train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/train.ipynb

파일 제출 스크립트 위치 : pyclue/clue/sentence_pair/cmnli/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/cmnli/predict.ipynb

5. 진단을 SET CLUE_DIAGNOSTICS TEST_SET

데이터 소개

진단 세트는 9 명의 언어 학자들이 요약 한 중국어 현상에서 다양한 모델의 성능을 평가하는 데 사용됩니다.

CMNLI에 대한 훈련 된 모델을 사용 하여이 진단 세트의 결과는 직접 예측됩니다. 제출 형식은 CMNLI와 일치합니다. 순위 세부 정보 페이지에서 결과를 볼 수 있습니다. (참고 :이 데이터 세트에는 CMNLI의 교육 세트 및 테스트 세트가 포함되어 있습니다)

링크 : https://pan.baidu.com/s/1dydugo6xn_4xat0y4ansiw 추출 코드 : U194

스크립트를 검토하십시오

교육 모델 스크립트 위치 : Pyclue/clue/sentence_pair/diagnostics/train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/train.ipynb

파일 제출 스크립트 위치 : Pyclue/clue/sentence_pair/diagnostics/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/clue/sentence_pair/diagnostics/predict.ipynb

6. 다른 단서가 지원하는 데이터 세트

보충.

사용자 정의 작업에 적용하십시오

1. 다중 클래스 분류

작업 설명

텍스트 분류, 감정 분류 등과 같은 다중 클래식 작업은 단일 문장 입력과 문장 쌍 입력의 두 가지 형태를 수락 할 수 있습니다.

데이터 요구 사항

데이터 디렉토리에는 적어도 train.txt, dev.txt 및 labels.txt 파일이 포함되어야하며 Test.txt 파일을 추가 할 수 있습니다.

양식 참조 저장 :

단일 문장 입력 (평가 스크립트에서 task_type = 'single' 에 해당) : pyclue/examples/classification/single_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/classification/classification/single_data_templates

문장 쌍 입력 (평가 스크립트에서 task_type = 'pairs' 에 해당) : pyclue/examples/classification/pairs_data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/classification/pairs_data_templates

참고 : t는 분리기로 사용해야합니다.

스크립트를 검토하십시오

교육 모델 스크립트 위치 : Pyclue/예제/분류/Train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/train.ipynb

예측 된 스크립트 위치 : Pyclue/예제/분류/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/examples/classification/predict.ipynb

2. 문장 쌍 작업 (트윈 네트워크) 문장 쌍 (Siamese)

작업 설명

다중 클래즈 화 작업의 문장 대 입력 모델과 다른 유사한 문장 간 문장 (트윈 네트워크)과 같은 문장 간 (트윈 네트워크) : 다중 클래식 작업의 문장은 Bert와 같은 스 플라이 싱 양식을 사용하여 작업을 입력하는 반면이 작업은 트윈 네트워크의 형식을 사용합니다.

데이터 요구 사항

데이터 디렉토리에는 적어도 train.txt, dev.txt 및 labels.txt 파일이 포함되어야하며 Test.txt 파일을 추가 할 수 있습니다.

양식 참조 저장 :

입력 : pyclue/examples/sentence_pair/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/data_templates

참고 : t는 분리기로 사용해야합니다.

스크립트를 검토하십시오

교육 모델 스크립트 위치 : Pyclue/examples/sentence_pair/train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/train.ipynb

예측 스크립트 위치 : Pyclue/examples/sentence_pair/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/examples/sentence_pair/predict.ipynb

3. 텍스트 매칭 작업 (트윈 네트워크) 텍스트 매칭 (시암)

설명

FAQ 검색, QQ 매칭 검색 및 기타 작업과 같은 텍스트 매칭 작업 (트윈 네트워크)은 트윈 네트워크를 사용하여 입력 문장에 포함 된 정보를 생성하고 HNSwlib을 사용하여 가장 유사한 문장을 검색합니다.

데이터 요구 사항

데이터 디렉토리에는 적어도 cache.txt, train.txt, dev.txt 및 labels.txt 파일이 포함되어야하며 Test.txt 파일을 추가 할 수 있습니다.

양식 참조 저장 :

입력 : pyclue/examples/text_matching/data_templates/, https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/data_templates

참고 : t는 분리기로 사용해야합니다.

스크립트를 검토하십시오

교육 모델 스크립트 위치 : Pyclue/examples/text_matching/train.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/train.ipynb

예측 된 스크립트 위치 : Pyclue/examples/text_matching/predict.ipynb

참조 : https://github.com/cluebenchmark/pyclue/blob/master/examples/text_matching/predict.ipynb

교육은 파일을 생성합니다

1. 모델 파일

모델 파일에는 10 개의 최신 체크 포인트 모델 파일과 PB 모델 파일 (테스트 세트 dev.txt에서 가장 잘 수행되는 10 개의 체크 포인트 모델 파일)이 포함되어 있습니다.

2. 교육 프로세스 지표

훈련 프로세스에서 생성 된 표시기 파일 (Train_Metrics.png)은 정확도, Total_Loss, Batch_Loss, Precision, Recall 및 F1 표시기입니다.

3. 프로세스 표시기를 확인하십시오

확인 파일 테스트가 있고 확인 파일의 각 줄이 True_Label로 시작하면 확인 파일의 최상의 모델 표시기가 인쇄됩니다.

API 문서

업데이트.

다른 지침

공식 주소 : https://github.com/cluebenchmark/pyclue

디버깅 주소 : https://github.com/liushaoweihua/pyclue

타임 라인

로그 업데이트

2019.12.05
- Pyclue의 첫 번째 버전은 단서 데이터 세트 (텍스트 분류, 문장 간 문장)를 신속하게 평가하는 데 사용됩니다.
2020.05.10
- 코드가 수정되고 중복 코드가 병합됩니다 (테스트 버전 : TensorFlow 1.15.2). API를 단순화하기 위해 다운 스트림 작업에서 TPU 지원이 일시적으로 제거됩니다.
- Bert, Albert 및 Roberta 모델의 다중 버전을 지원하며 지정된 사전 훈련 된 언어 이름에 따라 자동으로 다운로드 및로드 할 수 있습니다.
- 텍스트 분류, 문장 페어링 및 텍스트 매칭 작업을 지원합니다.
- 단서 데이터 세트 (AFQMC/TNEWS/IFLYTEK/CMNLI)를 신속하게 평가하고 ClueBenchmark의 허용 가능한 제출 파일을 생성하는 데 사용됩니다.
- 맞춤형 작업에 적용하고 배포 된 지원을 지원하는 체크 포인트 및 텐서 플로우 서비스 PB 모델 파일 형식을 빠르고 빠르게 생성하고 예측을 위해 PB 모델 파일을로드 할 수 있습니다. 파일 형식 품질 검사를 지원하고 오류 인식 결과를 지정된 디렉토리에 저장합니다.

업데이트 계획

2020.05 ~ 2020.08
- 다른 텍스트 분류, 문장 페어링 및 텍스트 매칭 작업을 지원합니다.
- 시퀀스 라벨링 작업을 지원합니다.
- Xlnet, Ernie, Electra 등을 지원합니다.
- 사전 훈련 된 워드 벡터 모델 (Word2Vec 등)을 지원하고 여러 다운 스트림 네트워크를 지원합니다.
2020.08 ~ 2020.10
- 독해 작업을 지원합니다.
- TF 2.0을 지원하고;
2020.10 ~ 2020.12
- 여러 소규모 모델을 지원하는 NLPCC 2020 Lightlm 고성능 소형 모델 평가 프로젝트에 연결하십시오.
- 단서가 이미 지원 한 Pytorch 모델을 통합합니다.

확장하다

추가 정보

버전 1.0.0
유형 AI 소스 코드
업데이트 시간 2025-09-07
크기 136.25KB
출처 Github