การใช้ BERT สำหรับการสกัดแอตทริบิวต์ในความรู้ด้วยสองวิธีการปรับแต่งและการสกัดคุณลักษณะ
ความรู้กราฟความรู้ Baidu สารานุกรมการป้อนข้อมูลการป้อนแอตทริบิวต์การทดลองได้ดำเนินการโดยใช้วิธีปรับแต่งการปรับแต่งและวิธีการสกัดสารออกฤทธิ์ตามเบิร์ต
Tensorflow >=1.10
scikit-learn
BERT-Base, Chinese : จีนง่ายและดั้งเดิม, 12 ชั้น, 768 ซ่อน, 12 หัว, พารามิเตอร์ 110m
ไม่มี
ชุดข้อมูลถูกสร้างขึ้นตามรายการอักขระสารานุกรม Baidu กรองคลังข้อมูลที่ไม่มีเอนทิตีและคุณลักษณะ
เอนทิตีและแอตทริบิวต์ได้มาจากการรับรู้ชื่อเอนทิตี
ฉลากได้มาจากสารานุกรม baidu infobox และส่วนใหญ่มีป้ายกำกับด้วยตนเองดังนั้นบางคนไม่ดีมาก
ตัวอย่างเช่น:
黄维#1904年#1#黄维(1904年-1989年),字悟我,出生于江西贵溪一农户家庭。
陈昂#山东省滕州市#1#邀请担任诗词嘉宾。1992年1月26日,陈昂出生于山东省滕州市一个普通的知识分子家庭,其祖父、父亲都
陈伟庆#肇庆市鼎湖区#0#长。任免信息2016年10月21日下午,肇庆市鼎湖区八届人大一次会议胜利闭幕。陈伟庆当选区人民政府副区长。
strip.py สามารถรับข้อมูลลายdata_process.py สามารถประมวลผลข้อมูลเพื่อรับอินพุตไฟล์ numpyparameters เป็นพารามิเตอร์ที่เรียกใช้โมเดลต้องการ ตัวอย่างเช่นชุดข้อมูลบ้านเกิด:
การปรับแต่ง
run_classifier.py เพื่อรับเอาต์พุตความน่าจะเป็นที่คาดการณ์ไว้ python run_classifier.py
--task_name=my
--do_train=true
--do_predict=true
--data_dir=a
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--max_seq_length=80
--train_batch_size=32
--learning_rate=2e-5
--num_train_epochs=1.0
--output_dir=./outputproba2metrics.py เพื่อให้ได้ผลลัพธ์สุดท้ายด้วยการจำแนกผิดการสกัดคุณลักษณะ
extract_features.py เพื่อรับการแสดงเวกเตอร์ของข้อมูลรถไฟและการทดสอบในรูปแบบไฟล์ JSON python extract_features.py
--input_file=../data/birth_place_train.txt
--output_file=../data/birth_place_train.jsonl
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--layers=-1
--max_seq_length=80
--batch_size=16json2vector.py เพื่อถ่ายโอนไฟล์ JSON ไปยังการแสดง Vectorrun_classifier.py เพื่อใช้วิธีการเรียนรู้ของเครื่องเพื่อทำการจำแนกประเภท MLP มักจะ peforms ดีที่สุด ผลลัพธ์ที่คาดการณ์ไว้และคลังข้อมูลที่จำแนกประเภทจะถูกบันทึกไว้ในผลลัพธ์
ตัวอย่างเช่นด้วยชุดข้อมูลบ้านเกิดโดยใช้วิธีการปรับแต่งผลลัพธ์คือ:
precision recall f1-score support
0 0.963 0.967 0.965 573
1 0.951 0.946 0.948 389
โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT