โครงการนี้ใช้
หากคุณไม่เข้าใจการจดจำเอนทิตีที่มีชื่อคุณสามารถอ่านบทความนี้ก่อน โดยวิธีการโปรดแสดง ~
นี่เป็นวิธีที่ง่ายที่สุดในการระบุโมเดล BILSTM+CRF สำหรับเอนทิตีที่มีชื่อ
มีชุดข้อมูลโอเพ่นซอร์สสามชุดที่มีอยู่ในโฟลเดอร์ข้อมูลข้อมูล Boson (https://bosonnlp.com), 1998 ข้อมูลที่มีป้ายกำกับรายวันของผู้คนและ MSRA Microsoft Asia Research Institute Open Source ในหมู่พวกเขามี 6 ประเภทเอนทิตีในชุดข้อมูล boson คลังข้อมูลรายวันของผู้คนโดยทั่วไปจะแยกสามประเภทของเอนทิตี: ชื่อบุคคลชื่อสถานที่และชื่อองค์กร
ก่อนอื่นให้เรียกใช้ไฟล์ Python ในข้อมูลเพื่อประมวลผลข้อมูลสำหรับโมเดลที่จะใช้
เริ่มการฝึกอบรมด้วย python train.py และรูปแบบที่ผ่านการฝึกอบรมจะถูกบันทึกไว้ในโฟลเดอร์โมเดล
การใช้ python train.py pretrained จะเริ่มการฝึกอบรมโดยใช้เวกเตอร์คำที่ผ่านการฝึกฝนมาก่อน vec.txt เป็นเวกเตอร์คำที่มีขนาดเล็กกว่าที่พบทางออนไลน์ คุณสามารถอ้างถึงรหัสของฉันเพื่อแก้ไขเพื่อใช้เวกเตอร์คำที่ดีกว่าอื่น ๆ
ใช้ python train.py test สำหรับการทดสอบและรุ่นล่าสุดในโฟลเดอร์รุ่นจะถูกอ่านและป้อนภาษาจีนโดยอัตโนมัติเพื่อทดสอบ คุณภาพของผลการทดสอบขึ้นอยู่กับความถูกต้องของแบบจำลอง

ใช้ python train.py input_file output_file สำหรับการสกัดเอนทิตีระดับไฟล์
มันสามารถอ่านโมเดลล่าสุดในโฟลเดอร์โมเดลโดยอัตโนมัติแยกเอนทิตีใน input_file และเขียนลงใน output_file ก่อนอื่นมีประโยคดั้งเดิมจากนั้นประเภทเอนทิตีและเอนทิตี (สามารถแก้ไขได้ตามต้องการ)
ตัวอย่างเช่น python train.py test1.txt res.txt เนื้อหา res.txt มีดังนี้:
มีการเพิ่มการแก้ไขเพิ่มเติมเป็นครั้งคราว -
ใช้โมเดล BILSTM+CRF ในการสอน Pytorch โดยตรง
เพียงแค่วิ่งรถไฟ เนื่องจากเราใช้ CPU และไม่ใช้แบทช์ความเร็วในการฝึกอบรมจึงช้ามาก หากคุณต้องการเรียกใช้รหัสเพียงแนะนำให้ใช้เฉพาะข้อมูลบางอย่างเพื่อเรียกใช้ Pytorch จะไม่ได้รับการอัปเดตในขณะนี้
พารามิเตอร์ไม่ได้ปรับอย่างระมัดระวังเกินไป ค่า F ของชุดข้อมูล boson อยู่ที่ประมาณ 70%~ 75%และค่า F ของชุดข้อมูลรายวันของผู้คนและชุดข้อมูล MSRA อยู่ที่ประมาณ 85%~ 90% (หลังจากทั้งหมด Boson มี 6 ประเภทเอนทิตีและอีกสองประเภทมีเพียง 3 ประเภท)
2018-9-15 เพิ่มเวอร์ชัน TensorFlow
2018-9-17 เพิ่มชุดข้อมูลประจำวันของผู้คนในปี 1998 และชุดข้อมูลสถาบันวิจัย MSRA Microsoft Asia
2018-9-19 รูปแบบรหัสได้รับการแก้ไขอย่างง่าย ๆ และแบบจำลองถูกสกัดเพื่อการขยายตัวในอนาคต
2018-9-22 เพิ่มฟังก์ชั่น python train.py test
2018-10-6 เพิ่มพารามิเตอร์การใช้งานเพื่อพิจารณาว่าจะใช้เวกเตอร์คำที่ผ่านการฝึกอบรมมาก่อนสำหรับการฝึกอบรมหรือไม่
2018-10-11 ฟังก์ชั่นเพิ่ม: สามารถแยกเอนทิตีจากไฟล์ข้อความและเขียนลงในไฟล์อื่น