spacy models Download - spacy models Quellcode Download

spacy models

Anderer Quellcode

ca_core_news_lg-3.8.0

Herunterladen

Spacy -Modelle

Dieses Repository enthält Veröffentlichungen von Modellen für die Spacy NLP -Bibliothek. Weitere Informationen zum Herunterladen, Installieren und Verwenden der Modelle finden Sie in der Modelle.

Euen Wichtiger Hinweis: Da die Modelle sehr groß sein können und hauptsächlich aus binären Daten bestehen können, können wir sie nicht einfach als Dateien in einem Github -Repository bereitstellen. Stattdessen haben wir uns dafür entschieden, sie zu Freisetzungen als .whl und .tar.gz -Dateien hinzuzufügen. Dies ermöglicht es uns, eine Veröffentlichung der Veröffentlichung noch aufrechtzuerhalten.

QuickStart

Führen Sie zum Installieren eines bestimmten Modells den folgenden Befehl mit dem Modellnamen aus (z. B. en_core_web_sm ):

python -m spacy download [model]

SPACY V3.x Modelle Verzeichnis
Spacy V3.x -Modellvergleich
SPACY V2.x Modelle Verzeichnis
Spacy V2.x -Modellvergleich
Einzelfreisetzungen

Für die Spacy V1.x -Modelle siehe hier.

Modellnamenkonventionen

Im Allgemeinen erwartet Spacy, dass alle Modellpakete der Namenskonvention von [lang]_[name] folgen. Für unsere bereitgestellten Pipelines teilen wir den Namen in drei Komponenten ein:

Typ : Modellfunktionen:
- core : Ein allgemeines Modell mit Tagging, Analyse, Lemmatisierung und benannter Entitätserkennung
- dep : Nur Tagging, Parsing und Lemmatisierung
- ent : Nur genannte Entitätserkennung
- sent : nur Satzsegmentierung
Genre : Art des Textes Das Modell ist trainiert (zB web für Webtext, news für Nachrichtentext)
Größe : Modellgröße Indikator:
- sm : Keine Wortvektoren
- md : Reduzierte Word -Vektor -Tabelle mit 20k einzigartigen Vektoren für ~ 500.000 Wörter
- lg : große Wortvektoretabelle mit ~ 500.000 Einträgen

Zum Beispiel ist en_core_web_md ein mittelgroßes englisches Modell, das auf geschriebenen Webtext (Blogs, Nachrichten, Kommentare) trainiert wurde und einen Tagger, einen Abhängigkeitsparser, einen Lemmatizer, einen genannten Entitätserkenner und eine Wortvektorentabelle mit 20-km-Vektoren enthält.

Modellversionierung

Darüber hinaus spiegelt die Modellversionierung sowohl die Kompatibilität mit Spacy als auch die Modellversion wider. Eine Modellversion abc übersetzt:

a : Spacy Major Version . Zum Beispiel 2 für Spacy v2.x.
b : Minor -Version . Zum Beispiel 3 für Spacy v2.3.x.
c : Modellversion. Unterschiedliche Modellkonfiguration: zB von der Schulung auf unterschiedliche Daten mit unterschiedlichen Parametern für unterschiedliche Anzahl von Iterationen, mit unterschiedlichen Vektoren usw.

Eine detaillierte Kompatibilitätsübersicht finden Sie in der compatibility.json . Dies ist auch die Quelle für die interne Kompatibilitätsprüfung von Spacy, die beim Ausführen des download -Befehls durchgeführt wird.

Unterstützung für ältere Versionen

Wenn Sie eine ältere Version (v1.6.0 oder unten) verwenden, können Sie die alten Modelle weiterhin mit python -m spacy.en.download all python -m spacy.de.download all und installieren. Die .tar.gz -Archive sind ebenfalls an die Version v1.6.0 beigefügt. Um die Modelle manuell herunterzuladen und zu installieren, packen Sie das Archiv aus, lassen Sie das enthaltene Verzeichnis in spacy/data und laden Sie das Modell über spacy.load('en') oder spacy.load('de') .

Herunterladen von Modellen

Um die Transparenz zu erhöhen und die Verwendung von Spacy mit Ihren eigenen Modellen zu erleichtern, sind alle Daten jetzt als direkte Downloads verfügbar, die in einzelnen Releases organisiert sind. SPACY 1.7 unterstützt auch die Installation und Laden von Modellen als Python -Pakete . Sie können nun auswählen, wie und wo Sie die Datendateien aufbewahren möchten, und "Verknüpfungslinks" einrichten, um Modelle mit Namen in Spacy zu laden. Weitere Informationen hierzu finden Sie in der Dokumentation der neuen Modelle.

 # download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm

# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl

Laden und Verwenden von Modellen

Verwenden Sie zum Laden eines Modells spacy.load() mit dem Modellnamen, einem Verknüpfungsverbindung oder einem Pfad zum Modelldatenverzeichnis.

 import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." )

Sie können ein Modell auch direkt über seinen vollständigen Namen import und dann seine load() -Methode ohne Argumente aufrufen. Dies sollte auch für ältere Modelle in früheren Versionen von Spacy funktionieren.

 import spacy
import en_core_web_sm

nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )

Handbuch Download und Installation

In einigen Fällen bevorzugen Sie möglicherweise die manuelle Herunterladen der Daten, um sie beispielsweise in ein benutzerdefiniertes Verzeichnis zu bringen. Sie können das Modell über Ihren Browser aus den neuesten Versionen herunterladen oder Ihr eigenes Download -Skript mit der URL der Archivdatei konfigurieren. Das Archiv besteht aus einem Modellverzeichnis, das ein weiteres Verzeichnis mit den Modelldaten enthält.

 └── en_core_web_md-3.0.0.tar.gz       # downloaded archive
    ├── setup.py                      # setup file for pip installation
    ├── meta.json                     # copy of pipeline meta
    └── en_core_web_md                # ? pipeline package
        ├── __init__.py               # init for pip installation
        └── en_core_web_md-3.0.0      # pipeline data
            ├── config.cfg            # pipeline config
            ├── meta.json             # pipeline meta
            └── ...                   # directories with component data

Weitere Informationen und Beispiele finden Sie in der Modelsdokumentation.

Spacy v1.x veröffentlicht

Datum	Modell	Version	Dep	Enthülle	Vec	Größe	Lizenz
`2017-06-06`	`es_core_web_md`	1.0.0	X	X	X	377 MB	CC BY-SA
`2017-04-26`	`fr_depvec_web_lg`	1.0.0	X		X	1,33 GB	CC BY-NC
`2017-03-21`	`en_core_web_md`	1.2.1	X	X	X	1 GB	CC BY-SA
`2017-03-21`	`en_depent_web_md`	1.2.1	X	X		328 MB	CC BY-SA
`2017-03-17`	`en_core_web_sm`	1.2.0	X	X	X	50 MB	CC BY-SA
`2017-03-17`	`en_core_web_md`	1.2.0	X	X	X	1 GB	CC BY-SA
`2017-03-17`	`en_depent_web_md`	1.2.0	X	X		328 MB	CC BY-SA
`2016-05-10`	`de_core_news_md`	1.0.0	X	X	X	645 MB	CC BY-SA
`2016-03-08`	`en_vectors_glove_md`	1.0.0			X	727 MB	CC BY-SA

Modellnamenkonventionen für v1.x -Modelle

Typ : Modellfunktionen (z. B. core für das allgemeine Purpose-Modell mit Vokabular, Syntax, Entitäten und Wortvektoren oder nur für Vokabeln, Syntax und Entitäten depent )
Genre : Art des Textes Das Modell ist trainiert (zB web für Webtext, news für Nachrichtentext)
Größe : Modellgrößenanzeige ( sm , md oder lg )

Beispielsweise ist en_depent_web_md ein mittelgroßes englisches Modell, das auf geschriebenen Webtext (Blogs, Nachrichten, Kommentaren) trainiert wurde und Vokabular, Syntax und Entitäten enthält.

Probleme und Fehlerberichte

Um ein Problem mit einem Modell zu melden, eröffnen Sie bitte ein Problem im Spacy -Issue -Tracker. Bitte beachten Sie, dass kein Modell perfekt ist. Da Modelle statistisch sind, wird ihr erwartetes Verhalten immer einige Fehler enthalten . Bestimmte Fehler können jedoch tiefere Probleme mit dem Trainingsfunktionsextraktion oder dem Optimierungscode anzeigen. Wenn Sie auf Muster in der Leistung des Modells stoßen, die misstrauisch erscheinen, stellen Sie bitte einen Bericht vor.

Expandieren

Zusätzliche Informationen