รูปแบบข้อมูลภาษาจีนที่จัดทำขึ้นสำหรับ Spacy ขณะนี้รูปแบบอยู่ในการทดสอบสาธารณะเบต้า
การสาธิตออนไลน์ตามสมุดบันทึก Jupyter
ข้อมูลแอตทริบิวต์บางส่วนของ Doc Object王小明在北京的清华大学读书:

ข้อมูลบางอย่างเกี่ยวกับการศึกษา Doc ของ Wang Xiaoming王小明在北京的清华大学读书:

โมเดลมีการกระจายในรูปแบบของไฟล์ไบนารีและผู้ใช้ควรมีความรู้พื้นฐานเกี่ยวกับ Spacy (เวอร์ชัน> 2)
Python 3 (อาจสนับสนุน Python2 แต่ไม่ได้ทดสอบอย่างดี)
ดาวน์โหลดโมเดลจากหน้ารีลีส ( ใหม่! ให้ผู้ใช้ในประเทศจีนพร้อมลิงก์เพื่อเร่งการดาวน์โหลด) สมมติว่ารุ่นที่ดาวน์โหลดมีชื่อว่า zh_core_web_sm-2.xxtar.gz
pip install zh_core_web_sm-2.x.x.tar.gz
เพื่ออำนวยความสะดวกในการใช้งานในเฟรมเวิร์กเช่น Rasa NLU จำเป็นต้องสร้างลิงก์สำหรับรุ่นนี้โดยดำเนินการคำสั่งต่อไปนี้:
spacy link zh_core_web_sm zhหลังจากการวิ่งเสร็จสมบูรณ์คุณสามารถใช้นามแฝง ZH เพื่อเข้าถึงโมเดล
รหัสตัวอย่างอยู่ใน test.py หลังจากติดตั้งโมเดลแล้วผู้ใช้จะดาวน์โหลดหรือโคลนรหัสในที่เก็บนี้และสามารถดำเนินการได้โดยตรง
python3 ./test.py เปิดที่อยู่ http://127.0.0.1:5000 แล้วคุณจะเห็นสิ่งต่อไปนี้:

ดูเวิร์กโฟลว์
คลังข้อมูลที่ใช้ในโครงการนี้คือ Ontonotes 5.0
เนื่องจาก Ontonotes 5.0 เป็นวัสดุที่มีลิขสิทธิ์ของ LDC (Consortium ข้อมูลภาษาศาสตร์) จึงไม่สามารถรวมอยู่ในโครงการนี้ได้โดยตรง ข่าวดีก็คือ Ontonotes 5.0 นั้นฟรีสำหรับผู้ใช้ในกลุ่มรวมถึงธุรกิจและองค์กรวิชาการ ผู้ใช้สามารถสร้างบัญชีองค์กรหรือองค์กรการศึกษาจากนั้นรับ Ontonotes 5.0 ได้ฟรี
pos_ ไม่ถูกต้อง สิ่งนี้เกี่ยวข้องกับชั้นเรียนภาษาจีนใน Spacyshape_ และ is_alpha ดูเหมือนจะไม่มีความหมายกับภาษาจีน แต่ต้องการข้อมูลที่เชื่อถือได้เพื่อยืนยันis_stop ไม่ถูกต้อง สิ่งนี้เกี่ยวข้องกับชั้นเรียนภาษาจีนใน Spacyvector แอตทริบิวต์ดูเหมือนจะไม่ได้รับการฝึกฝนมาอย่างดีis_oov ผิดอย่างสมบูรณ์ การแก้ไขลำดับความสำคัญครั้งแรกโปรดอ่าน Inteding.md และส่งคำขอดึงให้เรา
เราใช้ Semver สำหรับมาตรฐานการกำหนดเวอร์ชัน ตรวจสอบ tags เพื่อทำความเข้าใจทุกรุ่น
สำหรับข้อมูลเพิ่มเติมเกี่ยวกับผู้มีส่วนร่วมโปรดดูที่ contributors
ใบอนุญาต MIT - ดูใบอนุญาตสำหรับรายละเอียด