Dieses Repository enthält Veröffentlichungen von Modellen für die Spacy NLP -Bibliothek. Weitere Informationen zum Herunterladen, Installieren und Verwenden der Modelle finden Sie in der Modelle.
Euen Wichtiger Hinweis: Da die Modelle sehr groß sein können und hauptsächlich aus binären Daten bestehen können, können wir sie nicht einfach als Dateien in einem Github -Repository bereitstellen. Stattdessen haben wir uns dafür entschieden, sie zu Freisetzungen als.whlund.tar.gz-Dateien hinzuzufügen. Dies ermöglicht es uns, eine Veröffentlichung der Veröffentlichung noch aufrechtzuerhalten.
Führen Sie zum Installieren eines bestimmten Modells den folgenden Befehl mit dem Modellnamen aus (z. B. en_core_web_sm ):
python -m spacy download [model]Für die Spacy V1.x -Modelle siehe hier.
Im Allgemeinen erwartet Spacy, dass alle Modellpakete der Namenskonvention von [lang]_[name] folgen. Für unsere bereitgestellten Pipelines teilen wir den Namen in drei Komponenten ein:
core : Ein allgemeines Modell mit Tagging, Analyse, Lemmatisierung und benannter Entitätserkennungdep : Nur Tagging, Parsing und Lemmatisierungent : Nur genannte Entitätserkennungsent : nur Satzsegmentierungweb für Webtext, news für Nachrichtentext)sm : Keine Wortvektorenmd : Reduzierte Word -Vektor -Tabelle mit 20k einzigartigen Vektoren für ~ 500.000 Wörterlg : große Wortvektoretabelle mit ~ 500.000 Einträgen Zum Beispiel ist en_core_web_md ein mittelgroßes englisches Modell, das auf geschriebenen Webtext (Blogs, Nachrichten, Kommentare) trainiert wurde und einen Tagger, einen Abhängigkeitsparser, einen Lemmatizer, einen genannten Entitätserkenner und eine Wortvektorentabelle mit 20-km-Vektoren enthält.
Darüber hinaus spiegelt die Modellversionierung sowohl die Kompatibilität mit Spacy als auch die Modellversion wider. Eine Modellversion abc übersetzt:
a : Spacy Major Version . Zum Beispiel 2 für Spacy v2.x.b : Minor -Version . Zum Beispiel 3 für Spacy v2.3.x.c : Modellversion. Unterschiedliche Modellkonfiguration: zB von der Schulung auf unterschiedliche Daten mit unterschiedlichen Parametern für unterschiedliche Anzahl von Iterationen, mit unterschiedlichen Vektoren usw. Eine detaillierte Kompatibilitätsübersicht finden Sie in der compatibility.json . Dies ist auch die Quelle für die interne Kompatibilitätsprüfung von Spacy, die beim Ausführen des download -Befehls durchgeführt wird.
Wenn Sie eine ältere Version (v1.6.0 oder unten) verwenden, können Sie die alten Modelle weiterhin mit python -m spacy.en.download all python -m spacy.de.download all und installieren. Die .tar.gz -Archive sind ebenfalls an die Version v1.6.0 beigefügt. Um die Modelle manuell herunterzuladen und zu installieren, packen Sie das Archiv aus, lassen Sie das enthaltene Verzeichnis in spacy/data und laden Sie das Modell über spacy.load('en') oder spacy.load('de') .
Um die Transparenz zu erhöhen und die Verwendung von Spacy mit Ihren eigenen Modellen zu erleichtern, sind alle Daten jetzt als direkte Downloads verfügbar, die in einzelnen Releases organisiert sind. SPACY 1.7 unterstützt auch die Installation und Laden von Modellen als Python -Pakete . Sie können nun auswählen, wie und wo Sie die Datendateien aufbewahren möchten, und "Verknüpfungslinks" einrichten, um Modelle mit Namen in Spacy zu laden. Weitere Informationen hierzu finden Sie in der Dokumentation der neuen Modelle.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl Verwenden Sie zum Laden eines Modells spacy.load() mit dem Modellnamen, einem Verknüpfungsverbindung oder einem Pfad zum Modelldatenverzeichnis.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) Sie können ein Modell auch direkt über seinen vollständigen Namen import und dann seine load() -Methode ohne Argumente aufrufen. Dies sollte auch für ältere Modelle in früheren Versionen von Spacy funktionieren.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )In einigen Fällen bevorzugen Sie möglicherweise die manuelle Herunterladen der Daten, um sie beispielsweise in ein benutzerdefiniertes Verzeichnis zu bringen. Sie können das Modell über Ihren Browser aus den neuesten Versionen herunterladen oder Ihr eigenes Download -Skript mit der URL der Archivdatei konfigurieren. Das Archiv besteht aus einem Modellverzeichnis, das ein weiteres Verzeichnis mit den Modelldaten enthält.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataWeitere Informationen und Beispiele finden Sie in der Modelsdokumentation.
| Datum | Modell | Version | Dep | Enthülle | Vec | Größe | Lizenz | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | X | X | X | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | X | X | 1,33 GB | CC BY-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | X | X | X | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | X | X | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | X | X | X | 50 MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | X | X | X | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | X | X | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | X | X | X | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | X | 727 MB | CC BY-SA |
core für das allgemeine Purpose-Modell mit Vokabular, Syntax, Entitäten und Wortvektoren oder nur für Vokabeln, Syntax und Entitäten depent )web für Webtext, news für Nachrichtentext)sm , md oder lg ) Beispielsweise ist en_depent_web_md ein mittelgroßes englisches Modell, das auf geschriebenen Webtext (Blogs, Nachrichten, Kommentaren) trainiert wurde und Vokabular, Syntax und Entitäten enthält.
Um ein Problem mit einem Modell zu melden, eröffnen Sie bitte ein Problem im Spacy -Issue -Tracker. Bitte beachten Sie, dass kein Modell perfekt ist. Da Modelle statistisch sind, wird ihr erwartetes Verhalten immer einige Fehler enthalten . Bestimmte Fehler können jedoch tiefere Probleme mit dem Trainingsfunktionsextraktion oder dem Optimierungscode anzeigen. Wenn Sie auf Muster in der Leistung des Modells stoßen, die misstrauisch erscheinen, stellen Sie bitte einen Bericht vor.