sequence labeling BiLSTM CRF下載 - sequence labeling BiLSTM CRF源代碼下載

sequence labeling BiLSTM CRF

其他源碼

1.0.0

下載

Bilstm+CRF用於順序標記任務

Bilstm+CRF模型的張量實現，用於序列標記任務。

項目功能

基於TensorFlow API。
高度可擴展；一切都是可配置的。
用清晰的結構模塊化。
對初學者非常友好。
容易DIY。

任務和模型

Sequential labeling是一種典型的方法，建模NLP中的序列預測任務。常見的順序標記任務包括，例如，

語音的一部分（pos）標籤，
塊，
命名實體識別（NER） ，
標點恢復，
句子邊界檢測，
範圍檢測，
中文單詞細分（CWG） ，
語義角色標籤（SRL） ，
口語理解，
事件提取，
等等...

以命名實體識別（NER）任務為示例：

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

在這裡，將提取兩個實體， Stanford University和California 。具體而言，文本中的每個token都用相應的label標記。例如，{ token ：斯坦福大學， label ： b-org }。給定令牌序列，序列標記模型旨在預測標籤序列。

Lample等人提出的BiLSTM+CRF ，2016年，是迄今為止用於順序標記任務的最古典和穩定的神經模型。

專案

功能支持

配置所有設置
- 運行模式：[ train / test / interactive_predict / api_service ]
- 數據集（輸入/輸出）：
- 標籤方案：
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - ...
- 模型配置：
  - 編碼器：BGU/BI-LSTM，層，BI/UNI方向
  - 解碼器：CRF/SoftMax，
  - 嵌入級別：char/word，
  - 沒有/沒有自我注意力
  - 超參數，
  - ...
- 培訓設置：
  - 訂閱測量指標：[精確，召回，F1，準確性]
  - Optimazers：GD/Adagrad/Adadelta/RMSprop/Adam
- 測試設置，
- API服務設置，
記錄所有內容
Web App Demo可輕鬆演示
面向對象：bilstm_crf，數據集，configer，utils
用清晰的結構模塊化，易於DIY。

在手冊中查看更多。

要求

Python> = 3.5
TensorFlow> = 1.8
numpy
貓熊
django == 1.11.8
Jieba
...

設定

選項A：

下載倉庫直接使用。

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

選項B： TODO

將Bilstm-CRF軟件包作為模塊安裝。

 pip install BiLSTM-CRF

用法：

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

模塊結構


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

折疊
- 在engines折疊中，提供核心功能PY。
- 在data-subfold折疊中，放置了數據集。
- 在checkpoints-subfold折疊中，存儲模型檢查點。
- 在demo_webapp折疊中，我們可以在Web中演示系統，並提供API。
- 在tools折疊中，提供了一些離線效應。
文件
- main.py是系統的輸入python文件。
- system.config是所有系統設置的配置文件。
- HandBook.md提供了一些用法說明。
- BiLSTM_CRFs.py是主要模型。
- Configer.py解析system.config 。
- DataManager.py管理數據集和調度。
- utils.py在飛行工具上提供。

快速開始

在以下步驟下：

步驟1。在`system.config`中編寫您的配置文件。

配置數據集（輸入/輸出）。
配置標籤方案。
配置模型體系結構。
演示演示時配置WebApp設置。

system.config

步驟2。開始培訓（必要和強制性）

配置運行模式。
配置訓練設置。
運行main.py

步驟3。開始測試（可選）

配置運行模式。
配置測試設置。
運行main.py

步驟4。開始交互預測（可選）

配置運行模式。
運行main.py
交互式輸入句子。

交互預測

步驟5。啟動API服務和Web應用程序（可選）

配置運行模式。
配置API_Service設置。
運行main.py
在瀏覽器中進行交互預測。

Web App1

Web App2

數據集

輸入

包括火車集，測試集，DEV集在內的數據集對於整體使用情況是必需的。但是，您是否只想訓練模型脫機，只需要火車集。訓練後，您可以使用保存的模型檢查點文件進行推斷。如果您想進行測試，應該

對於trainset ， testset ， devset ，常見格式如下：

單詞級別：

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

char級別：

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

注意：

該testset只能使用Token行存在。
代幣的每個句子都用空白行分割。
轉到示例數據集以進行詳細的編輯。

輸出（在測試階段）

在測試過程中，模型將基於test.csv輸出預測的實體。輸出文件包括兩個： test.out ， test.entity.out （可選）。

test.out
與輸入test.csv相同的形成。
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

DIY

如果您想將該項目適應自己的特定序列標籤任務，則可能需要以下提示。

下載回購資源。
標籤方案（最重要）
- Label_scheme：Bio/Bieso
- label_level：帶有/沒有後綴
- 連字符，用於連接前綴和後綴： B_PER', i_loc'
- 後綴= [NR，NS，NT]
- labeling_level：word/char
模型：將模型體系結構修改為您想要的模型架構，以BiLSTM_CRFs.py 。
數據集：在正確的編輯中適應您的數據集。
訓練
- 指定所有目錄。
- 培訓超參數。