Das chinesische Datenmodell für Spacy. Das Modell befindet sich derzeit in den BETA -Tests.
Online -Demo basierend auf Jupyter Notebook.
Einige der Attributinformationen dieses Doc -Objekts王小明在北京的清华大学读书:

Einige der NER -Informationen über die Doc王小明在北京的清华大学读书:

Das Modell wird in Form von Binärdateien verteilt, und Benutzer sollten über grundlegende Kenntnisse über Spacy (Version> 2) verfügen.
Python 3 (vielleicht unterstützen Sie Python2, aber nicht gut getestet)
Laden Sie das Modell von der Releases -Seite herunter ( neu! Bietet Benutzern in China Links, um Downloads zu beschleunigen). Angenommen, das heruntergeladene Modell heißt zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
Um die nachfolgende Verwendung in Frameworks wie Rasa NLU zu erleichtern, muss ein Link für dieses Modell festgelegt werden, indem der folgende Befehl ausgeführt wird:
spacy link zh_core_web_sm zhNach Abschluss des Laufs können Sie den Alias ZH verwenden, um auf das Modell zuzugreifen.
Der Demo -Code befindet sich in test.py Nach der Installation des Modells download oder kloniert der Benutzer den Code in diesem Repository und kann ihn dann direkt ausführen.
python3 ./test.py Öffnen Sie die Adresse http://127.0.0.1:5000 und Sie werden Folgendes sehen:

Siehe Workflow
Der in diesem Projekt verwendete Korpus ist Ontonotes 5.0.
Da Ontonotes 5.0 das urheberrechtlich geschützte Material von LDC (Sprachdatenkonsortium) ist, kann es nicht direkt in dieses Projekt aufgenommen werden. Die gute Nachricht ist, dass Ontonotes 5.0 für Gruppenbenutzer, einschließlich Unternehmen und akademischen Organisationen, völlig kostenlos ist. Benutzer können ein Unternehmens- oder akademisches Organisationskonto aufbauen und dann kostenlos Ontonotes 5.0 erhalten.
pos_ ist falsch. Dies hängt mit der chinesischen Sprachklasse in Spacy zusammen.shape_ und is_alpha scheinen für Chinesisch bedeutungslos zu sein, benötigen jedoch maßgebliche Informationen, um sie zu bestätigen.is_stop ist falsch. Dies hängt mit der chinesischen Sprachklasse in Spacy zusammen.vector scheint nicht gut ausgebildet zu sein.is_oov ist völlig falsch. Erstprioritätsbehebung.Bitte lesen Sie bei.
Wir verwenden SEMVER für Versionungsstandards. Schauen Sie sich tags an, um alle Versionen zu verstehen.
Weitere Informationen zu Mitwirkenden finden Sie unter contributors .
MIT -Lizenz - siehe Lizenz.MD für Details