sequence labeling BiLSTM CRF Descargar - Descargar el código fuente sequence labeling BiLSTM CRF

sequence labeling BiLSTM CRF

Otro código fuente

1.0.0

Descargar

Bilstm+CRF para tareas de etiquetado secuencial

Una implementación de TensorFlow del modelo BILSTM+CRF, para tareas de etiquetado de secuencia.

Características del proyecto

Basado en la API TensorFlow.
altamente escalable ; Todo es configurable .
modularizado con estructura clara.
Muy amigable para principiantes.
Fácil de bricolaje.

Tarea y modelo

Sequential labeling es una metodología típica que modela las tareas de predicción de secuencia en PNL. Las tareas de etiquetado secuencial comunes incluyen, por ejemplo,

Etiquetado de parte de voz (POS) ,
Chunking ,
Reconocimiento de entidad nombrado (NER) ,
Restauración de puntuación ,
Detección de límites de oración ,
Detección de alcance ,
Segmentación de palabras chinas (CWG) ,
Etiquetado de rol semántico (SRL) ,
Comprensión del lenguaje hablado ,
Extracción de eventos ,
Y así sucesivamente ...

Tomar la tarea de reconocimiento de entidad nombrada (NER) como ejemplo:

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

Aquí, se extraerán dos entidades, Stanford University y California . Y específicamente, cada token en el texto está etiquetado con una label correspondiente. Por ejemplo, { token : Stanford , label : B-ORG }. El modelo de etiquetado de secuencia tiene como objetivo predecir la secuencia de la etiqueta, dada una secuencia de token.

BiLSTM+CRF propuesto por Lampra et al., 2016, es hasta ahora el modelo neuronal más clásico y estable para tareas de etiquetado secuencial.

Proyecto

Soporte de funciones

Configuración de todas las configuraciones
- Modo de ejecución: [ train / test / interactive_predict / api_service ]
- Conjuntos de datos (entrada/salida):
- Esquema de etiquetado:
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - ...
- Configuración del modelo:
  - codificador: BGU/BI-LSTM, LACE, BI/UNII-DIRECCIONAL
  - decodificador: CRF/Softmax,
  - Nivel de incrustación: char/word,
  - con/sin atención propia
  - hiperparametros,
  - ...
- Configuración de entrenamiento:
  - suscribir métricas de medición: [precisión, recuperación, F1, precisión]
  - Optimazers: GD/Adagrad/Adadelta/RMSProp/Adam
- Configuración de prueba,
- Configuración del servicio API,
Registro de todo
demostración de la aplicación web para fácil demostración
Orientado a objetos: bilstm_crf, conjuntos de datos, configra, utiliza
modularizado con estructura clara, fácil para bricolaje.

Ver más en el manual.

Requisitos

Python> = 3.5
tensorflow> = 1.8
numpy
pandas
Django == 1.11.8
jié
...

Configuración

Opción A:

Descargue el repositorio para usar directamente.

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

Opción B: TODO

Instale el paquete BILSTM-CRF como un módulo.

 pip install BiLSTM-CRF

uso:

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

Estructura del módulo


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

Pliegues
- En engines pliegue, proporcionando el núcleo funcionando PY.
- En el pliegue data-subfold , se colocan los conjuntos de datos.
- En checkpoints-subfold pliegue, los puntos de control del modelo se almacenan.
- En demo_webapp Fold, podemos demostrar el sistema en la web y proporciona API.
- en tools pliegue, proporcionando algunos utilizados fuera de línea.
Archivos
- main.py es el archivo de entrada de Python para el sistema.
- system.config es el archivo Configurar para todas las configuraciones del sistema.
- HandBook.md proporciona algunas instrucciones de uso.
- BiLSTM_CRFs.py es el modelo principal.
- Configer.py analiza el system.config .
- DataManager.py administra los conjuntos de datos y la programación.
- utils.py proporciona en las herramientas de moscas.

Comienzo rápido

En los siguientes pasos:

Paso 1. Componga su archivo de configuración en `system.config` .

Configurar los conjuntos de datos (entrada/salida).
Configure el esquema de etiquetado.
Configurar la arquitectura del modelo.
Configure la configuración de la aplicación web al demostrar demostración.

System.Config

Paso 2. Entrenamiento inicial (necesario y obligatorio)

Configurar el modo de ejecución.
Configurar la configuración de entrenamiento.
ejecutar main.py

capacitación

Paso 3. Prueba de arranque (opcional)

Configurar el modo de ejecución.
Configurar la configuración de prueba.
ejecutar main.py

Paso 4. Comenzando a predecir interactivamente (opcional)

Configurar el modo de ejecución.
ejecutar main.py
Ingresar oraciones interactivas.

predicción interactiva

Paso 5. Iniciar servicio API y aplicación web (opcional)

Configurar el modo de ejecución.
Configure la configuración API_Service.
ejecutar main.py
Haga una predicción interactiva en el navegador.

aplicación web1

APP2 WEB

Conjuntos de datos

Aporte

Los conjuntos de datos que incluyen TrainSet, TestSet, Devset son necesarios para el uso general. Sin embargo, ¿solo quieres entrenar al modelo el uso fuera de línea? Solo se necesita el conjunto de trenes. Después de la capacitación, puede hacer una inferencia con los archivos de punto de control de modelo guardado. Si quieres hacer una prueba, deberías

Para trainset , testset , devset , el formato común es el siguiente:

Nivel de palabra:

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

Nivel de char:

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

Tenga en cuenta que:

El testset solo puede existe con la fila Token .
Cada oración de tokens se segmenta con una línea en blanco.
Vaya al conjunto de datos de ejemplo para una formación detallada.

Salida (durante la fase de prueba)

Durante las pruebas, el modelo generará las entidades predichas basadas en la test.csv . Los archivos de salida incluyen dos: test.out , test.entity.out (opcional).

test.out
con la misma formación que test.csv de entrada.csv.
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

Bricolaje

Si desea adaptar este proyecto a su propia tarea de etiquetado de secuencia específica, es posible que necesite los siguientes consejos.

Descargue las fuentes de repo.
Esquema de etiquetado (lo más importante)
- Label_scheme: Bio/Bieso
- Label_level: con/sin sufijo
- guión, para conectar el prefijo y el sufijo: B_PER', i_loc'
- sufijo = [nr, ns, nt]
- Labeling_level: Word/Char
Modelo: Modifique la arquitectura del modelo en la que deseaba, en BiLSTM_CRFs.py .
Conjunto de datos: adaptar a su conjunto de datos, en la formación correcta.
Capacitación
- especificar todos los directorios.
- Entrenamiento de hiperparámetros.