sequence labeling BiLSTM CRF ดาวน์โหลด - sequence labeling BiLSTM CRF ซอร์สโค้ดดาวน์โหลดดาวน์โหลด

sequence labeling BiLSTM CRF

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

bilstm+crf สำหรับงานการติดฉลากตามลำดับ

การใช้งาน TensorFlow ของโมเดล BILSTM+CRF สำหรับงานการติดฉลากลำดับ

คุณสมบัติโครงการ

ขึ้นอยู่กับ Tensorflow API
ปรับขนาดได้ สูง; ทุกอย่างสามารถ กำหนดค่าได้
เป็นโมดูลที่มีโครงสร้างที่ชัดเจน
เป็นมิตรมากสำหรับผู้เริ่มต้น
ง่ายต่อ DIY

งานและรุ่น

Sequential labeling เป็นวิธีการทั่วไปวิธีการสร้างแบบจำลองงานการทำนายลำดับใน NLP งานการติดฉลากตามลำดับทั่วไป ได้แก่ เช่น

การติดแท็กส่วนหนึ่งของคำพูด (POS)
chunking
ชื่อการรับรู้เอนทิตี (NER)
การฟื้นฟูเครื่องหมายวรรค ตอน
การตรวจจับขอบเขตประโยค
การตรวจจับขอบเขต
การแบ่งส่วนคำภาษาจีน (CWG)
การติดฉลากบทบาทความหมาย (SRL)
ความเข้าใจภาษาพูด
การสกัดเหตุการณ์
และอื่น ๆ ...

รับงาน การจดจำเอนทิตี (NER) เป็นตัวอย่าง:

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

ที่นี่สองหน่วยงาน Stanford University และ California จะถูกสกัด และโดยเฉพาะอย่างยิ่ง token แต่ละรายการในข้อความจะถูกแท็กด้วย label ที่เกี่ยวข้อง เช่น { token : สแตนฟอร์ด , label : b-org } รูปแบบการติดฉลากลำดับมีจุดมุ่งหมายเพื่อทำนายลำดับฉลากตามลำดับโทเค็น

BiLSTM+CRF ที่เสนอโดย Lample et al., 2016 เป็นแบบจำลองระบบประสาทคลาสสิกและเสถียรที่สุดสำหรับงานการติดฉลากตามลำดับ

โครงการ

การสนับสนุนฟังก์ชั่น

การกำหนดค่าการตั้งค่าทั้งหมด
- โหมดการทำงาน: [ train / test / interactive_predict / api_service ]
- ชุดข้อมูล (อินพุต/เอาต์พุต):
- รูปแบบการติดฉลาก:
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - -
- การกำหนดค่ารุ่น:
  - ตัวเข้ารหัส: BGU/bi-lstm, เลเยอร์, bi/uni-directional
  - ตัวถอดรหัส: CRF/Softmax
  - ระดับการฝัง: ถ่าน/คำ
  - มี/ไม่สนใจตนเอง
  - ไฮเปอร์พารามิเตอร์
  - -
- การตั้งค่าการฝึกอบรม:
  - สมัครสมาชิกการวัดตัวชี้วัด: [ความแม่นยำ, การเรียกคืน, F1, ความแม่นยำ]
  - Optimazers: gd/adagrad/adadelta/rmsprop/adam
- การทดสอบการตั้งค่า
- การตั้งค่าบริการ API
เข้าสู่ระบบทุกอย่าง
การสาธิตเว็บแอปสำหรับการสาธิตง่ายๆ
Object มุ่งเน้น: bilstm_crf, ชุดข้อมูล, configer, utils
แบบแยกส่วนด้วยโครงสร้างที่ชัดเจนง่ายสำหรับ DIY

ดูเพิ่มเติมในคู่มือ

ความต้องการ

Python> = 3.5
tensorflow> = 1.8
นม
แพนด้า
django == 1.11.8
jieba
-

การตั้งค่า

ตัวเลือก A:

ดาวน์โหลด repo สำหรับใช้โดยตรง

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

ตัวเลือก B: สิ่งที่ต้องทำ

ติดตั้งแพ็คเกจ BILSTM-CRF เป็นโมดูล

 pip install BiLSTM-CRF

การใช้งาน:

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

โครงสร้างโมดูล


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

รอยพับ
- ในการพับ engines ให้การทำงานหลัก
- ในการพับ data-subfold ข้อมูลจะถูกวางไว้
- ใน checkpoints-subfold จุดตรวจสอบจะถูกเก็บไว้
- ใน demo_webapp Fold เราสามารถแสดงระบบในเว็บและให้ API
- ใน tools พับให้การใช้งานออฟไลน์
ไฟล์
- main.py เป็นไฟล์ Python รายการสำหรับระบบ
- system.config เป็นไฟล์กำหนดค่าสำหรับการตั้งค่าระบบทั้งหมด
- HandBook.md ให้คำแนะนำการใช้งานบางอย่าง
- BiLSTM_CRFs.py เป็นรุ่นหลัก
- Configer.py แยกวิเคราะห์ system.config
- DataManager.py จัดการชุดข้อมูลและการกำหนดเวลา
- utils.py นำเสนอเครื่องมือบิน

เริ่มต้นอย่างรวดเร็ว

ภายใต้ขั้นตอนต่อไปนี้:

ขั้นตอนที่ 1. การเขียนไฟล์กำหนดค่าของคุณใน `system.config`

กำหนดค่าชุดข้อมูล (อินพุต/เอาต์พุต)
กำหนดค่ารูปแบบการติดฉลาก
กำหนดค่าสถาปัตยกรรมรุ่น
กำหนดค่าการตั้งค่า WebApp เมื่อแสดงการสาธิต

System.Config

ขั้นตอนที่ 2. การฝึกอบรมเริ่มต้น (จำเป็นและภาคบังคับ)

กำหนดค่าโหมดการทำงาน
กำหนดค่าการตั้งค่าการฝึกอบรม
เรียกใช้ main.py

การฝึกอบรม

ขั้นตอนที่ 3. การทดสอบเริ่มต้น (ไม่บังคับ)

กำหนดค่าโหมดการทำงาน
กำหนดค่าการตั้งค่าการทดสอบ
เรียกใช้ main.py

ขั้นตอนที่ 4. การเริ่มต้นทำนายแบบโต้ตอบ (ไม่บังคับ)

กำหนดค่าโหมดการทำงาน
เรียกใช้ main.py
ประโยคอินพุตแบบโต้ตอบ

การทำนายแบบโต้ตอบ

ขั้นตอนที่ 5. เริ่มต้นบริการ API และเว็บแอป (ไม่บังคับ)

กำหนดค่าโหมดการทำงาน
กำหนดค่าการตั้งค่า API_SERVICE
เรียกใช้ main.py
ทำการทำนายแบบโต้ตอบในเบราว์เซอร์

Web App1

Web App2

ชุดข้อมูล

ป้อนข้อมูล

ชุดข้อมูลรวมถึง trainset, testset, devset เป็นสิ่งจำเป็นสำหรับการใช้งานโดยรวม อย่างไรก็ตามคุณเพียงต้องการฝึกอบรมแบบจำลองการใช้งานแบบออฟไลน์จำเป็นต้องใช้เฉพาะ Trainset เท่านั้น หลังจากการฝึกอบรมคุณสามารถอนุมานได้กับไฟล์จุดตรวจสอบรุ่นที่บันทึกไว้ หากคุณต้องการทำการทดสอบคุณควร

สำหรับ trainset , testset , devset , รูปแบบทั่วไปมีดังนี้:

ระดับคำ:

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

ระดับถ่าน:

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

โปรดทราบว่า:

testset สามารถมีได้เฉพาะกับแถว Token
แต่ละประโยคของโทเค็นแบ่งออกเป็นเส้นเปล่า
ไปที่ชุดข้อมูลตัวอย่างสำหรับการก่อตัวโดยละเอียด

เอาต์พุต (ระหว่างขั้นตอนการทดสอบ)

ในระหว่างการทดสอบแบบจำลองจะส่งออกเอนทิตีที่คาดการณ์ไว้ตาม test.csv ไฟล์เอาท์พุทประกอบด้วยสอง: test.out , test.entity.out (ไม่บังคับ)

test.out
ด้วยการก่อตัวเดียวกันกับ test.csv อินพุต csv
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

DIY

หากคุณต้องการปรับโครงการนี้ให้เข้ากับงานการติดฉลากลำดับเฉพาะของคุณเองคุณอาจต้องการเคล็ดลับต่อไปนี้

ดาวน์โหลดแหล่ง repo
รูปแบบการติดฉลาก (สำคัญที่สุด)
- label_scheme: Bio/Bieso
- label_level: มี/ไม่มีคำต่อท้าย
- ยัติภังค์สำหรับการเชื่อมต่อคำนำหน้าและคำต่อท้าย: B_PER', i_loc'
- คำต่อท้าย = [nr, ns, nt]
- labeling_level: Word/Char
โมเดล: แก้ไขสถาปัตยกรรมโมเดลเป็นสิ่งที่คุณต้องการใน BiLSTM_CRFs.py
ชุดข้อมูล: ปรับให้เข้ากับชุดข้อมูลของคุณในรูปแบบที่ถูกต้อง
การฝึกอบรม
- ระบุไดเรกทอรีทั้งหมด
- การฝึกอบรมพารามิเตอร์ไฮเปอร์