sequence labeling BiLSTM CRF Unduh - sequence labeling BiLSTM CRF Sumber Code Unduh

sequence labeling BiLSTM CRF

Kode sumber lainnya

1.0.0

Unduh

BILSTM+CRF untuk tugas pelabelan berurutan

Implementasi TensorFlow model BILSTM+CRF, untuk tugas pelabelan urutan.

Fitur Proyek

Berdasarkan API TensorFlow.
sangat diskalakan ; Semuanya dapat dikonfigurasi .
dimodulasi dengan struktur yang jelas.
sangat ramah untuk pemula.
Mudah untuk DIY.

Tugas dan model

Sequential labeling adalah salah satu pemodelan metodologi khas Tugas prediksi urutan di NLP. Tugas pelabelan berurutan umum termasuk, misalnya,

Part-of-speech (POS) Tagging ,
Chunking ,
Named Entity Recognition (NER) ,
Restorasi tanda baca ,
Deteksi batas kalimat ,
Deteksi Lingkup ,
Segmentasi Kata Cina (CWG) ,
Label Peran Semantik (SRL) ,
Pemahaman bahasa lisan ,
Ekstraksi acara ,
dan sebagainya...

Mengambil tugas Entity Recognition (NER) sebagai contoh:

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

Di sini, dua entitas, Stanford University dan California harus diekstraksi. Dan secara khusus, setiap token dalam teks ditandai dengan label yang sesuai. Misalnya, { token : stanford , label : b-org }. Model pelabelan urutan bertujuan untuk memprediksi urutan label, diberikan urutan token.

BiLSTM+CRF yang diusulkan oleh Lample et al., 2016, sejauh ini merupakan model saraf yang paling klasik dan stabil untuk tugas pelabelan berurutan.

Proyek

Dukungan fungsi

Mengkonfigurasi semua pengaturan
- Mode Berlari: [ train / test / interactive_predict / api_service ]
- Dataset (input/output):
- Skema Pelabelan:
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - ...
- Konfigurasi Model:
  - Encoder: BGU/BI-LSTM, Layer, Bi/Uni-Directional
  - Decoder: CRF/Softmax,
  - Level embedding: char/word,
  - dengan/tanpa perhatian diri
  - hyperparameters,
  - ...
- Pengaturan Pelatihan:
  - Metrik Pengukuran Berlangganan: [Presisi, Recall, F1, Akurasi]
  - Optimazers: GD/ADAGRAD/ADADELTA/RMSPROP/ADAM
- Pengujian Pengujian,
- Pengaturan Layanan API,
mencatat semuanya
demo aplikasi web untuk demonstrasi mudah
Berorientasi objek: bilstm_crf, dataset, configer, utils
Modularisasi dengan struktur yang jelas, mudah untuk DIY.

Lihat lebih banyak di Buku Pegangan.

Persyaratan

Python> = 3.5
TensorFlow> = 1.8
Numpy
panda
Django == 1.11.8
Jieba
...

Pengaturan

Opsi A:

Unduh repo untuk digunakan langsung.

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

Opsi B: TODO

Instal paket BILSTM-CRF sebagai modul.

 pip install BiLSTM-CRF

penggunaan:

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

Struktur modul


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

Lipatan
- Di Lipat engines , menyediakan PY yang berfungsi inti.
- Dalam lipatan data-subfold , dataset ditempatkan.
- Di lipatan checkpoints-subfold , pos pemeriksaan model disimpan.
- Dalam lipatan demo_webapp , kita dapat mendemonstrasikan sistem di web, dan menyediakan API.
- Di lipatan tools , berikan beberapa util offline.
File
- main.py adalah file Python entri untuk sistem.
- system.config adalah file konfigurasi untuk semua pengaturan sistem.
- HandBook.md memberikan beberapa instruksi penggunaan.
- BiLSTM_CRFs.py adalah model utama.
- Configer.py parses system.config .
- DataManager.py mengelola dataset dan penjadwalan.
- utils.py menyediakan alat terbang.

Awal yang cepat

Di bawah langkah berikut:

Langkah 1. Menyusun file konfigurasi Anda di `system.config` .

Konfigurasikan set data (input/output).
Konfigurasikan skema pelabelan.
Konfigurasikan arsitektur model.
Konfigurasikan pengaturan WebApp saat mendemonstrasikan demo.

System.config

Langkah 2. Pelatihan Mulai (perlu dan wajib)

Konfigurasikan mode berjalan.
Konfigurasikan pengaturan pelatihan.
Jalankan main.py

pelatihan

Langkah 3. Mulai Pengujian (Opsional)

Konfigurasikan mode berjalan.
Konfigurasikan pengaturan pengujian.
Jalankan main.py

Langkah 4. Memulai Prediksi Secara Interaktif (Opsional)

Konfigurasikan mode berjalan.
Jalankan main.py
Kalimat Input Secara Interaktif.

memprediksi secara interaktif

Langkah 5. Mulai Layanan API dan Aplikasi Web (Opsional)

Konfigurasikan mode berjalan.
Konfigurasikan pengaturan API_Service.
Jalankan main.py
Buat prediksi interaktif di browser.

App1 Web

Web App2

Kumpulan data

Masukan

Kumpulan data termasuk Trainset, Testset, Devset diperlukan untuk penggunaan keseluruhan. Namun, apakah Anda hanya ingin melatih model penggunaannya secara offline, hanya trainset yang diperlukan. Setelah pelatihan, Anda dapat membuat inferensi dengan file pos pemeriksaan model yang disimpan. Jika Anda ingin melakukan tes, Anda harus melakukannya

Untuk trainset , testset , devset , format umum adalah sebagai berikut:

Level Kata:

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

Level Char:

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

Perhatikan bahwa:

testset hanya dapat ada dengan baris Token .
Setiap kalimat token tersegmentasi dengan garis kosong.
Buka contoh dataset untuk pembentukan terperinci.

Output (selama fase pengujian)

Selama pengujian, model akan menghasilkan entitas yang diprediksi berdasarkan test.csv . File output termasuk dua: test.out , test.entity.out (opsional).

test.out
dengan formasi yang sama seperti test.csv input.csv.
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

DIY

Jika Anda ingin mengadaptasi proyek ini dengan tugas pelabelan urutan spesifik Anda sendiri, Anda mungkin memerlukan tips berikut.

Unduh sumber repo.
Skema Pelabelan (Paling Penting)
- Label_scheme: Bio/Bieso
- label_level: dengan/tanpa akhiran
- Hyphen, untuk menghubungkan awalan dan akhiran: B_PER', i_loc'
- sufiks = [nr, ns, nt]
- Labeling_level: Word/Char
Model: Ubah arsitektur model menjadi yang Anda inginkan, di BiLSTM_CRFs.py .
Dataset: Beradaptasi dengan dataset Anda, dalam formasi yang benar.
Pelatihan
- Tentukan semua direktori.
- melatih hyperparameters.