sequence labeling BiLSTM CRF下载 - sequence labeling BiLSTM CRF源代码下载

sequence labeling BiLSTM CRF

其他源码

1.0.0

下载

Bilstm+CRF用于顺序标记任务

Bilstm+CRF模型的张量实现，用于序列标记任务。

项目功能

基于TensorFlow API。
高度可扩展；一切都是可配置的。
用清晰的结构模块化。
对初学者非常友好。
容易DIY。

任务和模型

Sequential labeling是一种典型的方法，建模NLP中的序列预测任务。常见的顺序标记任务包括，例如，

语音的一部分（pos）标签，
块，
命名实体识别（NER） ，
标点恢复，
句子边界检测，
范围检测，
中文单词细分（CWG） ，
语义角色标签（SRL） ，
口语理解，
事件提取，
等等...

以命名实体识别（NER）任务为示例：

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

在这里，将提取两个实体， Stanford University和California 。具体而言，文本中的每个token都用相应的label标记。例如，{ token ：斯坦福大学， label ： b-org }。给定令牌序列，序列标记模型旨在预测标签序列。

Lample等人提出的BiLSTM+CRF ，2016年，是迄今为止用于顺序标记任务的最古典和稳定的神经模型。

项目

功能支持

配置所有设置
- 运行模式：[ train / test / interactive_predict / api_service ]
- 数据集（输入/输出）：
- 标签方案：
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - ...
- 模型配置：
  - 编码器：BGU/BI-LSTM，层，BI/UNI方向
  - 解码器：CRF/SoftMax，
  - 嵌入级别：char/word，
  - 没有/没有自我注意力
  - 超参数，
  - ...
- 培训设置：
  - 订阅测量指标：[精确，召回，F1，准确性]
  - Optimazers：GD/Adagrad/Adadelta/RMSprop/Adam
- 测试设置，
- API服务设置，
记录所有内容
Web App Demo可轻松演示
面向对象：bilstm_crf，数据集，configer，utils
用清晰的结构模块化，易于DIY。

在手册中查看更多。

要求

Python> = 3.5
TensorFlow> = 1.8
numpy
熊猫
django == 1.11.8
Jieba
...

设置

选项A：

下载仓库直接使用。

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

选项B： TODO

将Bilstm-CRF软件包作为模块安装。

 pip install BiLSTM-CRF

用法：

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

模块结构


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

折叠
- 在engines折叠中，提供核心功能PY。
- 在data-subfold折叠中，放置了数据集。
- 在checkpoints-subfold折叠中，存储模型检查点。
- 在demo_webapp折叠中，我们可以在Web中演示系统，并提供API。
- 在tools折叠中，提供了一些离线效应。
文件
- main.py是系统的输入python文件。
- system.config是所有系统设置的配置文件。
- HandBook.md提供了一些用法说明。
- BiLSTM_CRFs.py是主要模型。
- Configer.py解析system.config 。
- DataManager.py管理数据集和调度。
- utils.py在飞行工具上提供。

快速开始

在以下步骤下：

步骤1。在`system.config`中编写您的配置文件。

配置数据集（输入/输出）。
配置标签方案。
配置模型体系结构。
演示演示时配置WebApp设置。

system.config

步骤2。开始培训（必要和强制性）

配置运行模式。
配置训练设置。
运行main.py

步骤3。开始测试（可选）

配置运行模式。
配置测试设置。
运行main.py

步骤4。开始交互预测（可选）

配置运行模式。
运行main.py
交互式输入句子。

交互预测

步骤5。启动API服务和Web应用程序（可选）

配置运行模式。
配置API_Service设置。
运行main.py
在浏览器中进行交互预测。

Web App1

Web App2

数据集

输入

包括火车集，测试集，DEV集在内的数据集对于整体使用情况是必需的。但是，您是否只想训练模型脱机，只需要火车集。训练后，您可以使用保存的模型检查点文件进行推断。如果您想进行测试，应该

对于trainset ， testset ， devset ，常见格式如下：

单词级别：

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

char级别：

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

注意：

该testset只能使用Token行存在。
代币的每个句子都用空白行分割。
转到示例数据集以进行详细的编辑。

输出（在测试阶段）

在测试过程中，模型将基于test.csv输出预测的实体。输出文件包括两个： test.out ， test.entity.out （可选）。

test.out
与输入test.csv相同的形成。
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

DIY

如果您想将该项目适应自己的特定序列标签任务，则可能需要以下提示。

下载回购资源。
标签方案（最重要）
- Label_scheme：Bio/Bieso
- label_level：带有/没有后缀
- 连字符，用于连接前缀和后缀： B_PER', i_loc'
- 后缀= [NR，NS，NT]
- labeling_level：word/char
模型：将模型体系结构修改为您想要的模型架构，以BiLSTM_CRFs.py 。
数据集：在正确的编辑中适应您的数据集。
训练
- 指定所有目录。
- 培训超参数。

其他的

有关更多使用详细信息，请参考手册

欢迎您发出任何错误。

更新...

2019-Jun-04，Vex版本，v1.0，支持配置，可扩展。
2018-NOV-05，支持字符和单词水平嵌入。
2017年至06年，初始版本，v0.1。

执照

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-04-17
大小 73.89MB
来自于 Github

sequence labeling BiLSTM CRF

Bilstm+CRF用于顺序标记任务

项目功能

任务和模型

项目

功能支持

要求

设置

选项A：

选项B： TODO

模块结构

快速开始

步骤1。在`system.config`中编写您的配置文件。

步骤2。开始培训（必要和强制性）

步骤3。开始测试（可选）

步骤4。开始交互预测（可选）

步骤5。启动API服务和Web应用程序（可选）

数据集

输入

输出（在测试阶段）

DIY

其他的

更新...

执照

NCBI gene sequence Downloader

序列 v1.0

GitHub sgrebnov/cordova plugin background download

Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

sequence labeling BiLSTM CRF

Bilstm+CRF用于顺序标记任务

项目功能

任务和模型

项目

功能支持

要求

设置

选项A：

选项B： TODO

模块结构

快速开始

步骤1。在system.config中编写您的配置文件。

步骤2。开始培训（必要和强制性）

步骤3。开始测试（可选）

步骤4。开始交互预测（可选）

步骤5。启动API服务和Web应用程序（可选）

数据集

输入

输出（在测试阶段）

DIY

其他的

更新...

执照

步骤1。在`system.config`中编写您的配置文件。