โครงการนี้ขึ้นอยู่กับ Pytorch และ Torchtext และมีจุดมุ่งหมายเพื่อให้กรอบการเรียนรู้เชิงลึกพื้นฐานสำหรับงานที่เกี่ยวข้องกับการประมวลผลภาษาธรรมชาติ
สำหรับคำแนะนำและแบบฝึกหัดโดยละเอียดโปรดดูเอกสารประกอบโครงการ: LightNLP-Cookbook
pip install lightNLPขอแนะนำให้ใช้แหล่งข้อมูลในประเทศเพื่อติดตั้งเช่นการใช้คำสั่งต่อไปนี้:
pip install -i https://pypi.douban.com/simple/ lightNLPเนื่องจากไลบรารีบางแห่งเช่น Pytorch และ Torchtext ไม่ได้อยู่ในแหล่ง PYPI หรือมีรุ่นเก่าเท่านั้นเราจึงต้องติดตั้งไลบรารีบางอย่างแยกกัน
โปรดใช้ Pytorch เวอร์ชันล่าสุด!
สำหรับการติดตั้งเฉพาะโปรดดูที่เว็บไซต์ทางการของ Pytorch เพื่อเลือกเวอร์ชันที่เหมาะสมกับคุณตามแพลตฟอร์มวิธีการติดตั้งเวอร์ชัน Python และรุ่น CUDA
ใช้คำสั่งต่อไปนี้เพื่อติดตั้ง Torchtext เวอร์ชันล่าสุด:
pip install https://github.com/pytorch/text/archive/master.zipชีวภาพ
ตัวอย่างข้อมูลการฝึกอบรมมีดังนี้:
清 B_Time
明 I_Time
是 O
人 B_Person
们 I_Person
祭 O
扫 O
先 B_Person
人 I_Person
, O
怀 O
念 O
追 O
思 O
的 O
日 B_Time
子 I_Time
。 O
正 O
如 O
宋 B_Time
代 I_Time
诗 B_Person
人 I_Person
from lightnlp.sl import NER
# 创建NER对象
ner_model = NER()
train_path = '/home/lightsmile/NLP/corpus/ner/train.sample.txt'
dev_path = '/home/lightsmile/NLP/corpus/ner/test.sample.txt'
vec_path = '/home/lightsmile/NLP/embedding/char/token_vec_300.bin'
# 只需指定训练数据路径和TensorBoard日志文件路径,预训练字向量可选,开发集路径可选,模型保存路径可选(模型保存路径默认为`xx_saves`,其中xx为模型简称,如ner)。
ner_model.train(train_path, vectors_path=vec_path, dev_path=dev_path, save_path='./ner_saves', log_dir='E:/Test/tensorboard/')
# 加载模型,默认当前目录下的`ner_saves`目录
ner_model.load('./ner_saves')
# 对train_path下的测试集进行读取测试
ner_model.test(train_path)
from pprint import pprint
pprint(ner_model.predict('另一个很酷的事情是,通过框架我们可以停止并在稍后恢复训练。'))
ผลการทำนาย:
[{'end': 15, 'entity': '我们', 'start': 14, 'type': 'Person'}]
ดำเนินการคำสั่งต่อไปนี้จากบรรทัดคำสั่งโดยที่ E:TesttensorBoard ได้รับการแก้ไขให้เป็นเส้นทางการจัดเก็บบันทึกในระหว่างการฝึกอบรมแบบจำลองและข้อกำหนดของพอร์ตเป็นทางเลือก:
tensorboard --logdir=E: T est t ensorBoard --port=2019คุณสามารถเห็นผลที่คล้ายกัน:

ner_model . deploy ( host = "localhost" , port = 2020 , debug = False ) พารามิเตอร์ทั้งหมดเป็นทางเลือก พารามิเตอร์ host เป็นค่าเริ่มต้นเป็น localhost port จะถูกนำไปใช้โดยอัตโนมัติสำหรับพอร์ตที่ไม่ได้ใช้งานกับระบบโดยโปรแกรมและโหมด debug จะไม่ถูกเปิดใช้งานโดยค่าเริ่มต้น
คุณสามารถใช้บุรุษไปรษณีย์หรือเขียนโปรแกรมเพื่อทดสอบดังที่แสดงในรูปด้านล่าง: 

scalar ของการสูญเสียและคะแนนและ graph ของแต่ละรุ่น (ปัจจุบันมีข้อบกพร่องบางอย่างในฟังก์ชั่น add_graph ของ SummaryWriter ใน Pytorch ดังนั้นจึงไม่สามารถเพิ่มได้ในขณะนี้) name ของตัวเอง หากโครงการนี้เป็นประโยชน์กับคุณโปรดให้รางวัลแก่ฉัน ~