Repositori ini berisi rilis model untuk perpustakaan Spacy NLP. Untuk info lebih lanjut tentang cara mengunduh, menginstal dan menggunakan model, lihat dokumentasi model.
️ Catatan penting: Karena model bisa sangat besar dan sebagian besar terdiri dari data biner, kami tidak bisa hanya menyediakannya sebagai file dalam repositori GitHub. Sebagai gantinya, kami telah memilih untuk menambahkannya ke file.whldan.tar.gz. Ini memungkinkan kami untuk tetap mempertahankan sejarah rilis publik.
Untuk menginstal model tertentu, jalankan perintah berikut dengan nama model (misalnya en_core_web_sm ):
python -m spacy download [model]Untuk model Spacy v1.x, lihat di sini.
Secara umum, Spacy mengharapkan semua paket model untuk mengikuti konvensi penamaan [lang]_[name] . Untuk saluran pipa yang disediakan, kami membagi nama menjadi tiga komponen:
core : Model tujuan umum dengan penandaan, parsing, lemmatisasi dan pengenalan entitas yang disebutdep : Hanya penandaan, penguraian dan lemmatisasient : hanya pengakuan entitas bernamasent : Hanya segmentasi kalimatweb untuk teks web, news untuk teks berita)sm : tidak ada kata vektormd : Tabel Vektor Kata Mengurangi dengan vektor unik 20K untuk ~ 500 ribu katalg : Tabel Vektor Kata Besar dengan ~ Entri 500K Misalnya, en_core_web_md adalah model bahasa Inggris berukuran sedang yang dilatih pada teks web tertulis (blog, berita, komentar), yang mencakup tagger, parser ketergantungan, lemmatizer, pengenal entitas bernama dan tabel vektor kata dengan vektor unik 20k.
Selain itu, versi model mencerminkan kompatibilitas dengan spacy, serta versi model. Versi model abc diterjemahkan ke:
a : Versi utama Spacy . Misalnya, 2 untuk Spacy v2.x.b : Versi Minor Spacy . Misalnya, 3 untuk Spacy v2.3.x.c : Versi model. Konfigurasi Model yang Berbeda: Misalnya dari dilatih pada data yang berbeda, dengan parameter yang berbeda, untuk jumlah iterasi yang berbeda, dengan vektor yang berbeda, dll. Untuk tinjauan kompatibilitas terperinci, lihat compatibility.json . Ini juga merupakan sumber pemeriksaan kompatibilitas internal Spacy, dilakukan saat Anda menjalankan perintah download .
Jika Anda menggunakan versi yang lebih lama (v1.6.0 atau di bawah), Anda masih dapat mengunduh dan menginstal model lama dari dalam spacy menggunakan python -m spacy.en.download all atau python -m spacy.de.download all . Arsip .tar.gz juga melekat pada rilis v1.6.0. Untuk mengunduh dan menginstal model secara manual, buka arsip, letakkan direktori yang terkandung ke dalam spacy/data dan muat model melalui spacy.load('en') atau spacy.load('de') .
Untuk meningkatkan transparansi dan membuatnya lebih mudah untuk menggunakan spacy dengan model Anda sendiri, semua data sekarang tersedia sebagai unduhan langsung, diatur dalam rilis individu. Spacy 1.7 juga mendukung model pemasangan dan pemuatan sebagai paket Python . Anda sekarang dapat memilih bagaimana dan di mana Anda ingin menyimpan file data, dan mengatur "tautan pintasan" untuk memuat model berdasarkan nama dari dalam spacy. Untuk info lebih lanjut tentang ini, lihat dokumentasi model baru.
# download best-matching version of specific model for your spaCy installation
python -m spacy download en_core_web_sm
# pip install .whl or .tar.gz archive from path or URL
pip install /Users/you/en_core_web_sm-3.0.0.tar.gz
pip install /Users/you/en_core_web_sm-3.0.0-py3-none-any.whl
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0.tar.gz
pip install https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.0.0/en_core_web_sm-3.0.0-py3-none-any.whl Untuk memuat model, gunakan spacy.load() dengan nama model, tautan pintas atau jalur ke direktori data model.
import spacy
nlp = spacy . load ( "en_core_web_sm" )
doc = nlp ( u"This is a sentence." ) Anda juga dapat import model secara langsung melalui nama lengkapnya dan kemudian memanggil metode load() tanpa argumen. Ini juga harus berfungsi untuk model yang lebih lama dalam versi spacy sebelumnya.
import spacy
import en_core_web_sm
nlp = en_core_web_sm . load ()
doc = nlp ( u"This is a sentence." )Dalam beberapa kasus, Anda mungkin lebih suka mengunduh data secara manual, misalnya untuk menempatkannya ke dalam direktori khusus. Anda dapat mengunduh model melalui browser Anda dari rilis terbaru, atau mengkonfigurasi skrip unduhan Anda sendiri menggunakan URL file arsip. Arsip terdiri dari direktori model yang berisi direktori lain dengan data model.
└── en_core_web_md-3.0.0.tar.gz # downloaded archive
├── setup.py # setup file for pip installation
├── meta.json # copy of pipeline meta
└── en_core_web_md # ? pipeline package
├── __init__.py # init for pip installation
└── en_core_web_md-3.0.0 # pipeline data
├── config.cfg # pipeline config
├── meta.json # pipeline meta
└── ... # directories with component dataUntuk info dan contoh lebih lanjut, lihat dokumentasi model.
| Tanggal | Model | Versi | Dep | Ent | VEC | Ukuran | Lisensi | ||
|---|---|---|---|---|---|---|---|---|---|
2017-06-06 | es_core_web_md | 1.0.0 | X | X | X | 377 MB | CC BY-SA | ||
2017-04-26 | fr_depvec_web_lg | 1.0.0 | X | X | 1.33 GB | CC BY-NC | |||
2017-03-21 | en_core_web_md | 1.2.1 | X | X | X | 1 GB | CC BY-SA | ||
2017-03-21 | en_depent_web_md | 1.2.1 | X | X | 328 MB | CC BY-SA | |||
2017-03-17 | en_core_web_sm | 1.2.0 | X | X | X | 50 MB | CC BY-SA | ||
2017-03-17 | en_core_web_md | 1.2.0 | X | X | X | 1 GB | CC BY-SA | ||
2017-03-17 | en_depent_web_md | 1.2.0 | X | X | 328 MB | CC BY-SA | |||
2016-05-10 | de_core_news_md | 1.0.0 | X | X | X | 645 MB | CC BY-SA | ||
2016-03-08 | en_vectors_glove_md | 1.0.0 | X | 727 MB | CC BY-SA |
core untuk model tujuan umum dengan kosa kata, sintaks, entitas dan vektor kata, atau hanya depent pada vocab, sintaks dan entitas)web untuk teks web, news untuk teks berita)sm , md atau lg ) Misalnya, en_depent_web_md adalah model bahasa Inggris berukuran sedang yang dilatih pada teks web tertulis (blog, berita, komentar), yang mencakup kosa kata, sintaks dan entitas.
Untuk melaporkan masalah dengan model, buka masalah pada pelacak masalah Spacy. Harap dicatat bahwa tidak ada model yang sempurna. Karena model bersifat statistik, perilaku yang diharapkan akan selalu mencakup beberapa kesalahan . Namun, kesalahan tertentu dapat menunjukkan masalah yang lebih dalam dengan ekstraksi fitur pelatihan atau kode optimasi. Jika Anda menemukan pola dalam kinerja model yang tampak mencurigakan, silakan mengajukan laporan.