باستخدام BERT لاستخراج السمات في المعرفة مع طريقتين ، والضبط الدقيق واستخراج الميزات.
الرسم البياني للمعرفة Baidu Encyclopedia ، استخراج سمة إدخال حرف ، تم إجراء تجارب باستخدام طريقة التثبيت الدقيقة والاستفادة من الميزات استنادًا إلى BERT.
Tensorflow >=1.10
scikit-learn
BERT-Base, Chinese : الصينية مبسطة وتقليدية ، من 12 طبقة ، 768-حار ، 12 رأس ، 110 متر معلمات
لا أحد
تم إنشاء مجموعة البيانات وفقًا لإدخالات أحرف موسوعة Baidu. تصفية مجموعة لا تحتوي على كيانات وسمات.
يتم الحصول على الكيانات والسمات من التعرف على الكيان.
يتم الحصول على الملصقات من موسوعة Baidu Infobox ، ومعظمها يتم تصنيفه يدويًا ، لذلك البعض ليس جيدًا جدًا.
على سبيل المثال:
黄维#1904年#1#黄维(1904年-1989年),字悟我,出生于江西贵溪一农户家庭。
陈昂#山东省滕州市#1#邀请担任诗词嘉宾。1992年1月26日,陈昂出生于山东省滕州市一个普通的知识分子家庭,其祖父、父亲都
陈伟庆#肇庆市鼎湖区#0#长。任免信息2016年10月21日下午,肇庆市鼎湖区八届人大一次会议胜利闭幕。陈伟庆当选区人民政府副区长。
strip.py يمكن الحصول على بيانات مخططةdata_process.py يمكن معالجة البيانات للحصول على إدخال ملف numpyparameters هو المعلمات التي تعمل على تشغيل النموذج على سبيل المثال مع مجموعة بيانات مسقط رأسه:
الكون المثالى
run_classifier.py للحصول على مخرجات احتمالية متوقعة python run_classifier.py
--task_name=my
--do_train=true
--do_predict=true
--data_dir=a
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--max_seq_length=80
--train_batch_size=32
--learning_rate=2e-5
--num_train_epochs=1.0
--output_dir=./outputproba2metrics.py للحصول على النتيجة النهائية بتصنيف خاطئميزة الاستخراج
extract_features.py للحصول على تمثيل المتجه لبيانات القطار واختبارها بتنسيق ملف JSON python extract_features.py
--input_file=../data/birth_place_train.txt
--output_file=../data/birth_place_train.jsonl
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--layers=-1
--max_seq_length=80
--batch_size=16json2vector.py لنقل ملف JSON إلى تمثيل المتجهrun_classifier.py لاستخدام أساليب تعلم الآلة لإجراء التصنيف ، عادة ما يكون MLP أفضل يتم حفظ النتائج المتوقعة والمجموعة غير المصممة في النتيجة.
على سبيل المثال مع مجموعة بيانات مسقط رأسك باستخدام طريقة ضبط الدقة ، والنتيجة هي:
precision recall f1-score support
0 0.963 0.967 0.965 573
1 0.951 0.946 0.948 389
هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا