BERT AttributeExtraction
1.0.0
미세 조정 및 기능 추출, 두 가지 방법으로 Knowledgegraph에서 속성 추출을 위해 Bert 사용.
지식 그래프 Baidu 백과 사전 문자 항목 속성 추출, 실험은 Bert를 기반으로 한 미세 조정 미세 조정 및 기능 추출 방법을 사용하여 수행되었습니다.
Tensorflow >=1.10
scikit-learn
BERT-Base, Chinese : 중국 단순화 및 전통, 12 계층, 768-Hidden, 12-Heads, 110m 매개 변수
없음
데이터 세트는 Baidu 백과 사전 문자 항목에 따라 구성됩니다. 엔티티와 속성이 포함되어 있지 않은 코퍼스를 필터링하십시오.
엔티티 및 속성은 이름 엔티티 인식에서 얻습니다.
라벨은 Baidu Encyclopedia InfoBox에서 얻어지며 대부분 수동으로 표시되어 있으므로 일부는 좋지 않습니다.
예를 들어:
黄维#1904年#1#黄维(1904年-1989年),字悟我,出生于江西贵溪一农户家庭。
陈昂#山东省滕州市#1#邀请担任诗词嘉宾。1992年1月26日,陈昂出生于山东省滕州市一个普通的知识分子家庭,其祖父、父亲都
陈伟庆#肇庆市鼎湖区#0#长。任免信息2016年10月21日下午,肇庆市鼎湖区八届人大一次会议胜利闭幕。陈伟庆当选区人民政府副区长。
strip.py 줄무늬 데이터를 얻을 수 있습니다data_process.py 데이터를 처리하여 Numpy 파일 입력을 얻을 수 있습니다.parameters 파일은 모델 필요를 실행하는 매개 변수입니다 예를 들어 출생지 데이터 세트 :
미세 조정
run_classifier.py 실행하여 예측 확률 출력을 얻으십시오 python run_classifier.py
--task_name=my
--do_train=true
--do_predict=true
--data_dir=a
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--max_seq_length=80
--train_batch_size=32
--learning_rate=2e-5
--num_train_epochs=1.0
--output_dir=./outputproba2metrics.py 실행하여 잘못된 분류로 최종 결과를 얻으십시오.기능-추출
extract_features.py 실행합니다. python extract_features.py
--input_file=../data/birth_place_train.txt
--output_file=../data/birth_place_train.jsonl
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--layers=-1
--max_seq_length=80
--batch_size=16json2vector.py 실행하여 JSON 파일을 벡터 표현으로 전송합니다.run_classifier.py 사용하여 기계 학습 방법을 사용하여 분류를 수행하고 MLP는 일반적으로 가장 잘 peform입니다. 예측 된 결과와 잘못 분류 된 코퍼스는 결과적으로 저장됩니다.
예를 들어 미세 조정 방법을 사용하는 출생지 데이터 세트에서는 다음과 같습니다.
precision recall f1-score support
0 0.963 0.967 0.965 573
1 0.951 0.946 0.948 389
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다