Использование Bert для извлечения атрибутов в знаниях с двумя методами, тонкой настройкой и извлечением признаков.
График знаний Baidu Энциклопедия. Извлечение атрибутов символа символа, эксперименты проводились с использованием метода тонкой настройки и избыточной эксплуатации, основанного на BERT.
Tensorflow >=1.10
scikit-learn
BERT-Base, Chinese : китайский упрощенный и традиционный, 12-слойный, 768 скрытый, 12 голов, параметры 110 м.
Никто
Набор данных сконструирован в соответствии с записями энциклопедии Baidu. Отфильтруйте корпус, который не содержит организации и атрибуты.
Сущности и атрибуты получаются из признания имени сущности.
Метки получают из энциклопедии Baidu Infobox, и большинство из них помечены вручную, поэтому некоторые не очень хороши.
Например:
黄维#1904年#1#黄维(1904年-1989年),字悟我,出生于江西贵溪一农户家庭。
陈昂#山东省滕州市#1#邀请担任诗词嘉宾。1992年1月26日,陈昂出生于山东省滕州市一个普通的知识分子家庭,其祖父、父亲都
陈伟庆#肇庆市鼎湖区#0#长。任免信息2016年10月21日下午,肇庆市鼎湖区八届人大一次会议胜利闭幕。陈伟庆当选区人民政府副区长。
strip.py может получить полосатые данныеdata_process.py может обработать данные для получения ввода файла Numpyparameters - это параметры, которые запускают потребность модели Например, с набором данных о рождении:
тонкая настройка
run_classifier.py чтобы получить прогнозируемые выходы вероятности python run_classifier.py
--task_name=my
--do_train=true
--do_predict=true
--data_dir=a
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--max_seq_length=80
--train_batch_size=32
--learning_rate=2e-5
--num_train_epochs=1.0
--output_dir=./outputproba2metrics.py , чтобы получить окончательный результат с неправильной классификациейфункция-экспрессия
extract_features.py , чтобы получить векторное представление данных поезда и тестирования в формате файла json python extract_features.py
--input_file=../data/birth_place_train.txt
--output_file=../data/birth_place_train.jsonl
--vocab_file=/home/tiny/zhaomeng/bertmodel/vocab.txt
--bert_config_file=/home/tiny/zhaomeng/bertmodel/bert_config.json
--init_checkpoint=/home/tiny/zhaomeng/bertmodel/bert_model.ckpt
--layers=-1
--max_seq_length=80
--batch_size=16json2vector.py для передачи файла json в векторное представлениеrun_classifier.py для использования методов машинного обучения для выполнения классификации, MLP обычно лучше Прогнозируемые результаты и неправильно классифицированный корпус сохраняются в результате Dir.
Например, с набором данных о рождении с использованием метода тонкой настройки, результат:
precision recall f1-score support
0 0.963 0.967 0.965 573
1 0.951 0.946 0.948 389
Этот проект лицензирован по лицензии MIT