ที่เก็บนี้มีรุ่นรุ่นสำหรับไลบรารี NLP Spacy สำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการดาวน์โหลดติดตั้งและใช้โมเดลดูเอกสารประกอบโมเดล
หมายเหตุสำคัญ: เนื่องจากโมเดลอาจมีขนาดใหญ่มากและประกอบด้วยข้อมูลไบนารีเป็นส่วนใหญ่เราจึงไม่สามารถจัดเตรียมไฟล์เหล่านั้นเป็นไฟล์ในที่เก็บ GitHub ได้ แต่เราเลือกที่จะเพิ่มไฟล์เหล่านั้นเพื่อเผยแพร่เป็นไฟล์ .whlและ.tar.gzสิ่งนี้ช่วยให้เรายังคงรักษาประวัติประชาชน
ในการติดตั้งโมเดลเฉพาะให้เรียกใช้คำสั่งต่อไปนี้ด้วยชื่อรุ่น (ตัวอย่างเช่น en_core_web_sm ):
python -m spacy download [model]สำหรับรุ่น Spacy v1.x ดูที่นี่
โดยทั่วไป Spacy คาดว่าแพ็คเกจโมเดลทั้งหมดจะทำตามอนุสัญญาการตั้งชื่อของ [lang]_[name] สำหรับท่อที่ให้มาของเราเราแบ่งชื่อออกเป็นสามองค์ประกอบ:
core : แบบจำลองวัตถุประสงค์ทั่วไปที่มีการติดแท็กการแยกวิเคราะห์การจำแนกและการจดจำเอนทิตีที่มีชื่อdep : เฉพาะการติดแท็กการแยกวิเคราะห์และ lemmatizationent : การรับรู้เอนทิตีที่มีชื่อเท่านั้นsent : การแบ่งส่วนประโยคเท่านั้นweb สำหรับข้อความเว็บ news สำหรับข้อความข่าว)sm : ไม่มีเวกเตอร์คำmd : ลดตารางคำเวกเตอร์ด้วยเวกเตอร์ที่ไม่ซ้ำ 20k สำหรับคำ ~ 500klg : ตารางเวกเตอร์คำขนาดใหญ่ที่มีรายการ ~ 500K ตัวอย่างเช่น en_core_web_md เป็นรุ่นภาษาอังกฤษขนาดกลางที่ผ่านการฝึกอบรมเกี่ยวกับข้อความเว็บที่เป็นลายลักษณ์อักษร (บล็อกข่าวความคิดเห็น) ซึ่งรวมถึงแท็กเกอร์ตัวแยกวิเคราะห์การพึ่งพา, lemmatizer, ผู้จดจำเอนทิตีที่มีชื่อและตารางเวกเตอร์
นอกจากนี้การกำหนดเวอร์ชันโมเดลสะท้อนให้เห็นถึงความเข้ากันได้กับ Spacy รวมถึงรุ่นรุ่น รุ่นรุ่น abc แปลเป็น:
a : รุ่นสำคัญของ Spacy ตัวอย่างเช่น 2 สำหรับ Spacy v2.xb : Spacy Minor Version ตัวอย่างเช่น 3 สำหรับ Spacy v2.3.xc : รุ่นรุ่น การกำหนดค่าโมเดลที่แตกต่างกัน: เช่นจากการฝึกอบรมข้อมูลที่แตกต่างกันด้วยพารามิเตอร์ที่แตกต่างกันสำหรับจำนวนการวนซ้ำที่แตกต่างกันด้วยเวกเตอร์ที่แตกต่างกัน ฯลฯ สำหรับภาพรวมความเข้ากันได้โดยละเอียดดู compatibility.json json นี่เป็นแหล่งที่มาของการตรวจสอบความเข้ากันได้ภายในของ Spacy ซึ่งดำเนินการเมื่อคุณเรียกใช้คำสั่ง download
หากคุณใช้เวอร์ชันเก่า (v1.6.0 หรือต่ำกว่า) คุณยังสามารถดาวน์โหลดและติดตั้งรุ่นเก่าจากภายใน Spacy โดยใช้ python -m spacy.en.download all หรือ python -m spacy.de.download all คลังเก็บ .tar.gz ยังติดอยู่กับการเปิดตัว v1.6.0 ในการดาวน์โหลดและติดตั้งโมเดลด้วยตนเองคลายไฟล์เก็บถาวรให้วางไดเรกทอรีที่มีอยู่ใน spacy/data และโหลดโมเดลผ่าน spacy.load('en') หรือ spacy.load('de')
เพื่อเพิ่มความโปร่งใสและทำให้การใช้งานกับรุ่นของคุณง่ายขึ้นข้อมูลทั้งหมดมีให้บริการในการดาวน์โหลดโดยตรงซึ่งจัดขึ้นในแต่ละรุ่น Spacy 1.7 ยังรองรับการติดตั้งและโหลดโมเดลเป็น แพ็คเกจ Python ตอนนี้คุณสามารถเลือกวิธีการและสถานที่ที่คุณต้องการเก็บไฟล์ข้อมูลและตั้งค่า "ลิงก์ทางลัด" เพื่อโหลดโมเดลตามชื่อจากภายใน Spacy สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูเอกสารประกอบโมเดลใหม่
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl ในการโหลดโมเดลให้ใช้ spacy.load() ด้วยชื่อรุ่นลิงก์ทางลัดหรือเส้นทางไปยังไดเรกทอรีข้อมูลโมเดล
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) นอกจากนี้คุณยังสามารถ import โมเดลได้โดยตรงผ่านชื่อเต็มแล้วเรียกใช้วิธี load() โดยไม่มีอาร์กิวเมนต์ สิ่งนี้ควรใช้งานได้กับรุ่นเก่าใน Spacy รุ่นก่อนหน้า
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )ในบางกรณีคุณอาจต้องการดาวน์โหลดข้อมูลด้วยตนเองเช่นวางไว้ในไดเรกทอรีที่กำหนดเอง คุณสามารถดาวน์โหลดโมเดลผ่านเบราว์เซอร์ของคุณจากรุ่นล่าสุดหรือกำหนดค่าสคริปต์ดาวน์โหลดของคุณเองโดยใช้ URL ของไฟล์เก็บถาวร คลังเก็บประกอบด้วยไดเรกทอรีโมเดลที่มีไดเรกทอรีอื่นที่มีข้อมูลแบบจำลอง
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataสำหรับข้อมูลเพิ่มเติมและตัวอย่างให้ตรวจสอบเอกสารโมเดล
| วันที่ | แบบอย่าง | รุ่น | ส่วนที่ | ความรู้สึก | VEC | ขนาด | ใบอนุญาต | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | x | x | x | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | x | x | 1.33 GB | CC BY-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | x | x | x | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | x | x | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | x | x | x | 50 MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | x | x | x | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | x | x | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | x | x | x | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | x | 727 MB | CC BY-SA |
core สำหรับแบบจำลองวัตถุประสงค์ทั่วไปที่มีคำศัพท์ไวยากรณ์เอนทิตีและเวกเตอร์คำหรือ depent สำหรับคำศัพท์ไวยากรณ์และเอนทิตีเท่านั้น)web สำหรับข้อความเว็บ news สำหรับข้อความข่าว)sm , md หรือ lg ) ตัวอย่างเช่น en_depent_web_md เป็นรุ่นภาษาอังกฤษขนาดกลางที่ผ่านการฝึกอบรมเกี่ยวกับข้อความเว็บที่เป็นลายลักษณ์อักษร (บล็อกข่าวความคิดเห็น) ซึ่งรวมถึงคำศัพท์ไวยากรณ์และเอนทิตี
หากต้องการรายงานปัญหาเกี่ยวกับรูปแบบโปรดเปิดปัญหาเกี่ยวกับตัวติดตามปัญหา Spacy โปรดทราบว่าไม่มีรุ่นใดที่สมบูรณ์แบบ เนื่องจากแบบจำลองเป็นสถิติพฤติกรรมที่คาดหวัง จะรวมถึงข้อผิดพลาดบางอย่าง อย่างไรก็ตามข้อผิดพลาดเฉพาะสามารถระบุปัญหาที่ลึกซึ้งยิ่งขึ้นด้วยการแยกคุณลักษณะการฝึกอบรมหรือรหัสการเพิ่มประสิทธิภาพ หากคุณเจอรูปแบบในประสิทธิภาพของโมเดลที่ดูน่าสงสัยโปรดทำรายงาน