Model data Cina disediakan untuk spacy. Model ini sedang dalam pengujian publik beta.
Demo online berdasarkan jupyter notebook.
Beberapa informasi atribut dari objek Doc ini王小明在北京的清华大学读书:

Beberapa informasi NER tentang studi Doc Wang Xiaoming王小明在北京的清华大学读书:

Model ini didistribusikan dalam bentuk file biner, dan pengguna harus memiliki pengetahuan dasar tentang spacy (versi> 2).
Python 3 (mungkin mendukung Python2, tetapi tidak diuji dengan baik)
Unduh model dari halaman rilis ( baru! Menyediakan pengguna di Cina dengan tautan untuk mempercepat unduhan). Misalkan model yang diunduh bernama zh_core_web_sm-2.xxtar.gz .
pip install zh_core_web_sm-2.x.x.tar.gz
Untuk memfasilitasi penggunaan selanjutnya dalam kerangka kerja seperti Rasa NLU, perlu untuk membuat tautan untuk model ini, dengan melaksanakan perintah berikut:
spacy link zh_core_web_sm zhSetelah menjalankan selesai, Anda dapat menggunakan Alias ZH untuk mengakses model.
Kode demo terletak di test.py Setelah model diinstal, pengguna mengunduh atau mengkloning kode di repositori ini dan kemudian dapat menjalankannya secara langsung.
python3 ./test.py Buka alamat http://127.0.0.1:5000 dan Anda akan melihat yang berikut:

Lihat alur kerja
Corpus yang digunakan dalam proyek ini adalah Ontonotes 5.0.
Karena Ontonotes 5.0 adalah bahan yang dilindungi hak cipta LDC (Konsorsium Data Linguistik), ia tidak dapat secara langsung dimasukkan dalam proyek ini. Berita baiknya adalah bahwa Ontonotes 5.0 sepenuhnya gratis untuk pengguna kelompok, termasuk bisnis dan organisasi akademik. Pengguna dapat membuat akun organisasi perusahaan atau akademik dan kemudian memperoleh Ontonotes 5.0 secara gratis.
pos_ salah. Ini terkait dengan kelas bahasa Cina dalam spacy.shape_ dan is_alpha tampaknya tidak berarti bagi orang Cina, tetapi membutuhkan informasi otoritatif untuk mengonfirmasinya.is_stop salah. Ini terkait dengan kelas bahasa Cina dalam spacy.vector atribut tampaknya tidak terlatih dengan baik.is_oov benar -benar salah. Perbaikan Prioritas Pertama.Harap baca Contributing.md dan kirimkan permintaan tarik ke kami.
Kami menggunakan SEMVER untuk standar versi. Lihat tags untuk memahami semua versi.
Untuk informasi lebih lanjut tentang kontributor, silakan merujuk ke contributors .
Lisensi MIT - Lihat lisensi.md untuk detailnya