BERT AttributeExtraction ดาวน์โหลด - BERT AttributeExtraction Source Source Download

BERT AttributeExtraction

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

Bert-Attribute-Extraction

การแยกแอตทริบิวต์กราฟความรู้ขึ้นอยู่กับเบิร์ต

การใช้ BERT สำหรับการสกัดแอตทริบิวต์ในความรู้ด้วยสองวิธีการปรับแต่งและการสกัดคุณลักษณะ

ความรู้กราฟความรู้ Baidu สารานุกรมการป้อนข้อมูลการป้อนแอตทริบิวต์การทดลองได้ดำเนินการโดยใช้วิธีปรับแต่งการปรับแต่งและวิธีการสกัดสารออกฤทธิ์ตามเบิร์ต

ข้อกำหนดเบื้องต้น

 Tensorflow >=1.10
scikit-learn

รุ่นที่ผ่านการฝึกอบรมมาก่อน

BERT-Base, Chinese : จีนง่ายและดั้งเดิม, 12 ชั้น, 768 ซ่อน, 12 หัว, พารามิเตอร์ 110m

การติดตั้ง

ไม่มี

ชุดข้อมูล

ชุดข้อมูลถูกสร้างขึ้นตามรายการอักขระสารานุกรม Baidu กรองคลังข้อมูลที่ไม่มีเอนทิตีและคุณลักษณะ

เอนทิตีและแอตทริบิวต์ได้มาจากการรับรู้ชื่อเอนทิตี

ฉลากได้มาจากสารานุกรม baidu infobox และส่วนใหญ่มีป้ายกำกับด้วยตนเองดังนั้นบางคนไม่ดีมาก
ตัวอย่างเช่น:

黄维#1904年#1#黄维（1904年-1989年），字悟我，出生于江西贵溪一农户家庭。        
陈昂#山东省滕州市#1#邀请担任诗词嘉宾。1992年1月26日，陈昂出生于山东省滕州市一个普通的知识分子家庭，其祖父、父亲都
陈伟庆#肇庆市鼎湖区#0#长。任免信息2016年10月21日下午，肇庆市鼎湖区八届人大一次会议胜利闭幕。陈伟庆当选区人民政府副区长。

เริ่มต้น

Run strip.py สามารถรับข้อมูลลาย
เรียกใช้ data_process.py สามารถประมวลผลข้อมูลเพื่อรับอินพุตไฟล์ numpy
ไฟล์ parameters เป็นพารามิเตอร์ที่เรียกใช้โมเดลต้องการ

รันการทดสอบ

ตัวอย่างเช่นชุดข้อมูลบ้านเกิด:

การปรับแต่ง

run_classifier.py เพื่อรับเอาต์พุตความน่าจะเป็นที่คาดการณ์ไว้

python run_classifier.py 
        --task_name=my 
        --do_train=true 
        --do_predict=true 
        --data_dir=a 
        --vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt 
        --bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json 
        --init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt 
        --max_seq_length=80 
        --train_batch_size=32 
        --learning_rate=2e-5 
        --num_train_epochs=1.0 
        --output_dir=./output

จากนั้นเรียกใช้ proba2metrics.py เพื่อให้ได้ผลลัพธ์สุดท้ายด้วยการจำแนกผิด

การสกัดคุณลักษณะ
- เรียกใช้ extract_features.py เพื่อรับการแสดงเวกเตอร์ของข้อมูลรถไฟและการทดสอบในรูปแบบไฟล์ JSON
```
python extract_features.py 
        --input_file=../data/birth_place_train.txt 
        --output_file=../data/birth_place_train.jsonl 
        --vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt 
        --bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json 
        --init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt 
        --layers=-1 
        --max_seq_length=80 
        --batch_size=16
```
- จากนั้นเรียกใช้ json2vector.py เพื่อถ่ายโอนไฟล์ JSON ไปยังการแสดง Vector
- ในที่สุด run_classifier.py เพื่อใช้วิธีการเรียนรู้ของเครื่องเพื่อทำการจำแนกประเภท MLP มักจะ peforms ดีที่สุด

ผลลัพธ์

ผลลัพธ์ที่คาดการณ์ไว้และคลังข้อมูลที่จำแนกประเภทจะถูกบันทึกไว้ในผลลัพธ์

ตัวอย่างเช่นด้วยชุดข้อมูลบ้านเกิดโดยใช้วิธีการปรับแต่งผลลัพธ์คือ:
```
            precision    recall  f1-score   support

     0      0.963     0.967     0.965       573
     1      0.951     0.946     0.948       389
```