sequence labeling BiLSTM CRF Download - sequence labeling BiLSTM CRF Código fonte download

sequence labeling BiLSTM CRF

Outro código-fonte

1.0.0

Baixar

Bilstm+CRF para tarefas de rotulagem seqüencial

Uma implementação do tensorflow do modelo BILSTM+CRF, para tarefas de rotulagem de sequência.

Recursos do projeto

Com base na API do TensorFlow.
altamente escalável ; Tudo é configurável .
modularizado com estrutura clara.
Muito amigável para iniciantes.
Fácil de DIY.

Tarefa e modelo

Sequential labeling é uma metodologia típica que modela as tarefas de previsão de sequência na PNL. Tarefas de rotulagem seqüenciais comuns incluem, por exemplo,

Marcação de parte da fala (POS) ,
Chunking ,
Nomeado Reconhecimento de Entidade (NER) ,
Restauração de pontuação ,
Detecção de limites da frase ,
Detecção de escopo ,
Segmentação de palavras chinesas (CWG) ,
Rotulagem semântica de papel (SRL) ,
Entendimento da linguagem falada ,
Extração de eventos ,
E assim por diante ...

Tomando a tarefa de reconhecimento de entidade nomeado (NER) como exemplo:

Stanford University located at California .
B-ORG    I-ORG      O       O  B-LOC      O

Aqui, duas entidades, Stanford University e California devem ser extraídas. E especificamente, cada token no texto é marcado com um label correspondente. Por exemplo, { token : Stanford , label : B-Org }. O modelo de marcação de sequência visa prever a sequência do rótulo, dada uma sequência de token.

BiLSTM+CRF proposto por Lample et al., 2016, é até agora o modelo neural mais clássico e estável para tarefas de marcação seqüencial.

Projeto

Suporte à função

definindo todas as configurações
- Modo de execução: [ train / test / interactive_predict / api_service ]
- Conjuntos de dados (entrada/saída):
- Esquema de rotulagem:
  - [ BIO / BIESO ]
  - [ PER | LOC | ORG ]
  - ...
- Configuração do modelo:
  - Codificador: BGU/Bi-LSTM, camada, Bi/Uni-Directional
  - Decodificador: CRF/Softmax,
  - Nível de incorporação: char/palavra,
  - com/sem atenção
  - Hiperparameters,
  - ...
- Configurações de treinamento:
  - Inscreva -se métricas de medição: [precisão, recall, F1, precisão]
  - Optimzers: GD/ADAGRAD/ADADELTA/RMSPROP/ADAM
- Configurações de teste,
- Configurações de serviço da API,
registrando tudo
demonstração de aplicativos da web para facilitar a demonstração
Orientado para objetos: bilstm_crf, conjuntos de dados, configer, utils
Modularizado com estrutura clara, fácil para DIY.

Veja mais no manual.

Requisitos

python> = 3.5
tensorflow> = 1.8
Numpy
Pandas
Django == 1.11.8
Jieba
...

Configurar

Opção A:

Faça o download do repo para uso diretamente.

 git clone https://github.com/scofield7419/sequence-labeling-BiLSTM-CRF.git
pip install -r requirements.txt

Opção B: TODO

Instale o pacote BILSTM-CRF como um módulo.

 pip install BiLSTM-CRF

uso:

 from BiLSTM-CRF.engines.BiLSTM_CRFs import BiLSTM_CRFs as BC
from BiLSTM-CRF.engines.DataManager import DataManager
from BiLSTM-CRF.engines.Configer import Configer
from BiLSTM-CRF.engines.utils import get_logger

...

config_file = r'/home/projects/system.config'
configs = Configer(config_file)

logger = get_logger(configs.log_dir)
configs.show_data_summary(logger) # optional

dataManager = DataManager(configs, logger)
model = BC(configs, logger, dataManager)
        
###### mode == 'train':
model.train()

###### mode == 'test':
model.test()

###### mode == 'single predicting':
sentence_tokens, entities, entities_type, entities_index = model.predict_single(sentence)
if configs.label_level == 1:
    print("nExtracted entities:n %snn" % ("n".join(entities)))
elif configs.label_level == 2:
    print("nExtracted entities:n %snn" % ("n".join([a + "t(%s)" % b for a, b in zip(entities, entities_type)])))


###### mode == 'api service webapp':
cmd_new = r'cd demo_webapp; python manage.py runserver %s:%s' % (configs.ip, configs.port)
res = os.system(cmd_new)

open `ip:port` in your browser.

Estrutura do módulo


├── main.py
├── system.config
├── HandBook.md
├── README.md
│
├── checkpoints
│   ├── BILSTM-CRFs-datasets1
│   │   ├── checkpoint
│   │   └── ...
│   └── ...
├── data
│   ├── example_datasets1
│   │   ├── logs
│   │   ├── vocabs
│   │   ├── test.csv
│   │   ├── train.csv
│   │   └── dev.csv
│   └── ...
├── demo_webapp
│   ├── demo_webapp
│   ├── interface
│   └── manage.py
├── engines
│   ├── BiLSTM_CRFs.py
│   ├── Configer.py
│   ├── DataManager.py
│   └── utils.py
└── tools
    ├── calcu_measure_testout.py
    └── statis.py

Dobras
- Nos engines , fornecendo o núcleo que funcionava.
- Na dobra data-subfold , os conjuntos de dados são colocados.
- Nos checkpoints-subfold , os pontos de verificação do modelo são armazenados.
- Na demo_webapp Fold, podemos demonstrar o sistema na Web e fornecer API.
- Nas tools dobradas, fornecendo alguns utilitários offline.
Arquivos
- main.py é o arquivo python de entrada para o sistema.
- system.config é o arquivo de configuração de todas as configurações do sistema.
- HandBook.md fornece algumas instruções de uso.
- BiLSTM_CRFs.py é o modelo principal.
- Configer.py analisa o system.config .
- DataManager.py gerencia os conjuntos de dados e agendamento.
- utils.py fornece nas ferramentas de mosca.

Início rápido

Sob as seguintes etapas:

Etapa 1. Compondo seu arquivo de configuração no `system.config` .

Configure os conjuntos de dados (entrada/saída).
Configure o esquema de rotulagem.
Configure a arquitetura do modelo.
Defina a configuração do WebApp ao demonstrar demonstração.

System.Config

Etapa 2. Treinamento inicial (necessário e obrigatório)

Configure o modo de execução.
Defina a configuração de treinamento.
execute main.py

treinamento

Etapa 3. Iniciando testes (opcional)

Configure o modo de execução.
definir a configuração de teste.
execute main.py

Etapa 4. Iniciando a previsão interativa (opcional)

Configure o modo de execução.
execute main.py
Inserências de entrada interativa.

Prevendo interativamente

Etapa 5. SERVIÇO DE API ENCONTRADO E APP (OPCIONAL)

Configure o modo de execução.
configure a configuração API_SERVICE.
execute main.py
Faça previsão interativa no navegador.

web app1

web app2

Conjuntos de dados

Entrada

Os conjuntos de dados, incluindo Trainset, TestSet, Devset, são necessários para o uso geral. No entanto, você só quer treinar o modelo o usá -lo offline, apenas o trem é necessário. Após o treinamento, você pode ingerir os arquivos de ponto de verificação do modelo salvo. Se você quiser fazer um teste, você deveria

Para trainset , testset , devset , o formato comum é o seguinte:

nível de palavra:

 (Token)         (Label)

for             O
the             O
lattice         B_TAS
QCD             I_TAS
computation     I_TAS
of              I_TAS
nucleon–nucleon I_TAS
low-energy      I_TAS
interactions    E_TAS
.               O

It              O
consists        O
in              O
simulating      B_PRO
...

nível de char:

 (Token) (Label)

马 B-LOC
来 I-LOC
西 I-LOC
亚 I-LOC
副 O
总 O
理 O
。 O

他 O
兼 O
任 O
财 B-ORG
政 I-ORG
部 I-ORG
长 O
...

Observe que:

O testset só pode existir com a linha Token .
Cada frase de tokens é segmentada com uma linha em branco.
Vá para o conjunto de dados de exemplo para formação detalhada.

Saída (durante a fase de teste)

Durante o teste, o modelo produzirá as entidades previstas com base no test.csv . Os arquivos de saída incluem dois: test.out , test.entity.out (opcional).

test.out
com a mesma formação que test.csv de entrada.csv.
test.entity.out

 Sentence
entity1 (Type)
entity2 (Type)
entity3 (Type)
...

test.entity.out

DIY

Se você deseja adaptar este projeto à sua própria tarefa de rotulagem de sequência específica, pode precisar das seguintes dicas.

Faça o download das fontes de repo.
Esquema de rotulagem (mais importante)
- LABEL_SCHEME: BIO/BIESO
- Label_level: com/sem sufixo
- HPHEN, para conectar o prefixo e o sufixo: B_PER', i_loc'
- sufixo = [nr, ns, nt]
- Rateling_level: palavra/char
Modelo: modifique a arquitetura do modelo naquele que você queria, em BiLSTM_CRFs.py .
Conjunto de dados: adapte -se ao seu conjunto de dados, na formação correta.
Treinamento
- Especifique todos os diretórios.
- Hiperparâmetros de treinamento.