Unduh ChineseNER - Download Kode Sumber ChineseNER

ChineseNER

ular piton

1.0.0

Unduh

Chinesener

Proyek ini menggunakan

Python 2.7
TensorFlow 1.7.0
Pytorch 0.4.0

Jika Anda tidak memahami pengakuan entitas yang disebutkan, Anda dapat membaca artikel ini terlebih dahulu. Ngomong -ngomong, tolong bintangi ~

Ini adalah cara termudah untuk mengidentifikasi model BILSTM+CRF untuk entitas bernama.

data

Ada tiga set data open source yang tersedia di folder data, data Boson (https://bosonnlp.com), 1998 People Daily Data Daily, dan MSRA Microsoft Asia Research Institute data sumber terbuka. Di antara mereka, ada 6 jenis entitas dalam set data Boson. People's Daily Corpus dan MSRA umumnya hanya mengekstrak tiga jenis entitas: nama orang, nama tempat, dan nama organisasi.

Pertama -tama jalankan file Python dalam data untuk memproses data agar model digunakan.

Versi TensorFlow

Mulai pelatihan

Mulailah berlatih dengan python train.py , dan model terlatih akan disimpan di folder model.

Gunakan kata-kata pra-terlatih

Menggunakan python train.py pretrained akan mulai berlatih menggunakan vektor kata pretrained. Vec.txt adalah kata pretrained yang lebih kecil yang ditemukan secara online. Anda dapat merujuk pada kode saya untuk memodifikasinya untuk menggunakan vektor kata lain yang lebih baik.

Uji model yang terlatih

Gunakan python train.py test untuk pengujian, dan model terbaru dalam folder model akan secara otomatis dibaca dan dimasukkan Cina untuk diuji. Kualitas hasil tes tergantung pada keakuratan model.

Ekstraksi entitas tingkat file

Gunakan python train.py input_file output_file untuk ekstraksi entitas tingkat file.

Ini dapat secara otomatis membaca model terbaru di folder model, mengekstrak entitas di input_file dan menulisnya ke output_file . Pertama ada kalimat asli, maka jenis entitas dan entitas (dapat dimodifikasi sesuai kebutuhan).

Misalnya, python train.py test1.txt res.txt , res.txt konten adalah sebagai berikut:

Modifikasi tambahan ditambahkan dari waktu ke waktu. .

Versi Pytorch

Gunakan model BILSTM+CRF di tutorial Pytorch secara langsung.

Jalankan saja pelatihan train.py. Karena kami menggunakan CPU dan tidak menggunakan batch, kecepatan pelatihannya sangat lambat. Jika Anda hanya ingin menjalankan kode, disarankan untuk hanya menggunakan beberapa data untuk menjalankannya. Pytorch tidak akan diperbarui untuk saat ini.

Ketepatan

Parameter tidak disesuaikan terlalu hati -hati. Nilai F dari set data boson adalah sekitar 70%~ 75%, dan nilai f dari set data harian dan MSRA adalah sekitar 85%~ 90%. (Bagaimanapun, Boson memiliki 6 jenis entitas, dan dua lainnya hanya memiliki 3 jenis)

Perbarui log

2018-9-15 Menambahkan Versi TensorFlow.

2018-9-17 Menambahkan kumpulan data harian orang pada tahun 1998 dan kumpulan data MSRA Microsoft Asia Research Institute.

2018-9-19 Gaya kode hanya dimodifikasi dan model diekstraksi untuk ekspansi di masa depan.

2018-9-22 Menambahkan python train.py test Function.

2018-10-6 Tambahkan parameter penggunaan untuk menentukan apakah akan menggunakan vektor kata pra-terlatih untuk pelatihan.

Fungsi Penambahan 2018-10-11: Ini dapat mengekstrak entitas dari file teks dan menulisnya ke file lain.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe ular piton
Waktu Pembaruan 2025-07-13
ukuran 13.52MB
Berasal dari Github

Aplikasi Terkait

ToDo Co

2025-03-22
Python Portfolio

2024-11-10
Alat bagan data sumber terbuka Redash v24.10.0

2024-11-27
datamule python

2024-11-08
platform visualisasi data smartchart v6.9

2024-11-27
Alat pengujian beban belalang v2.32.0

2024-11-27

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ToDo Co

ular piton

1.0.0
Python Portfolio

ular piton
datamule python

ular piton
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua