Download do BERT CH NER BERT CH NER

BERT CH NER

Outro código-fonte

1.0.0

Baixar

Nomeado de reconhecimento de entidade (NER) sob o conjunto de dados chinês baseado em Bert

Modificado com base no código oficial do tensorflow.

ambiente

Tensorflow: 1.13

Python: 3.6

Tensorflow2.0 relatará um erro.

Competição de Sohu

https://www.biendata.com/competition/sohu2019/

Nesta competição de texto de Sohu, uma linha de base foi escrita, usando Bert e Bert+LSTM+CRF para reconhecimento de entidades.

Os resultados do uso apenas de Bert são os seguintes. Consulte a descrição da competição para o plano de avaliação específico. Aqui, apenas a parte física é feita e todas as emoções são as pontuações dos testes realizadas pelo POS.

1557228899471

O resultado é o seguinte usando o BERT+LSTM+CRF

1557228995787

Teste de verificação de treinamento

 export BERT_BASE_DIR=/opt/hanyaopeng/souhu/data/chinese_L-12_H-768_A-12
export NER_DIR=/opt/hanyaopeng/souhu/data/data_v2
python run_souhuv2.py 
                    --task_name=NER 
                    --do_train=true
                    --do_eval=true 
                    --do_predict=true 
                    --data_dir= $NER_DIR / 
                    --output_dir= $BERT_BASE_DIR /outputv2/ 
                    --train_batch_size=32 
                    --vocab_file= $BERT_BASE_DIR /vocab.txt 
                    --max_seq_length=256 
                    --learning_rate=2e-5 
                    --num_train_epochs=10.0 
                    --bert_config_file= $BERT_BASE_DIR /bert_config.json 
                    --init_checkpoint= $BERT_BASE_DIR /bert_model.ckpt

Código

Sob o arquivo Souhu

O arquivo souhu_util.py é o código de processamento de dados que é convertido em uma entidade após a obtenção do rótulo previsto.
lstm_crf_layer.py é o código da camada LSTM+CRF
run_souhu.py usa apenas o código de Bert
run_souhuv2.py bert+lstm+crf

Perceber

Porque ao lidar com chinês, haverá alguns símbolos estranhos, como u3000, etc., que você precisa processar com antecedência, caso contrário, etiquetas_id e inputs_id não corresponderão, porque a tokenização trazida pela BET processará esses símbolos. Portanto, você pode usar o Basictenizer que vem com a BET para pré -processar o texto dos dados primeiro para corresponder ao rótulo.

 tokenizer = tokenization . BasicTokenizer ( do_lower_case = True )
text = tokenizer . tokenize ( text )
text = '' . join ([ l for l in text ])

dois

Bert é usado para treinar entidades nomeadas para reconhecer tarefas NER com base no conjunto de dados chinês publicado pelos cursos do professor.

Eu usei o BI+LSTM+CRF para reconhecimento antes, e o efeito também foi bom. Desta vez, usei Bert para treinamento, que pode ser considerado como leitura e compreensão do código -fonte Bert.

Embora houvesse muitos exemplos e tutoriais sobre o uso de Bert antes, acho que não está muito completo. Alguma falta de comentários não é muito amigável para os novatos, e outros têm problemas diferentes. Códigos diferentes são modificados. Eu encontrei muitas armadilhas na estrada. Então grave.

Conjunto de dados

Sob a pasta TMP

1553264280882

Conforme mostrado na figura acima, o conjunto de dados é segmentado, onde a fonte é o texto no conjunto de treinamento e o destino é o rótulo do conjunto de treinamento.

TEST1 Conjunto de testes, Test_TGT Test Set Set Label. Definir Definir Definir o rótulo do conjunto de validação de dev-lable.

Formato de dados

 需要将数据处理成如下格式，一个句子对应一个label .句子和label的每个字都用空格分开。
 如: line = [我 爱 国 科 大 哈 哈]   str
     label = [ O O B I E O O ]       str的type 用空格分开
    
具体请看代码中的NerProcessor 和 NerBaiduProcessor

Perceber

O particípio da palavra bert encontrará alguns problemas quando se trata de particípios de palavras de personagem.

Por exemplo, entrada e pergunta macau =-=-=-Parabéns ao retorno de Macau à contagem regressiva, etiqueta: oo B-Loc i-Loc ooooo B-Loc i-Loc oooooooo

O input =- será processado em dois caracteres, para que o rótulo não corresponda e precisará ser processado manualmente. Por exemplo, pegue o rótulo do primeiro caractere a cada vez. De fato, esse problema será encontrado ao lidar com o inglês. A palavra -palavra dividirá uma palavra em vários tokens, por isso precisa ser processado manualmente (essa é apenas uma maneira simples de lidar com isso).

    la = example.label.split(' ')

    tokens_a = []
    labellist = []

    for i,t in enumerate(example.text_a.split(' ')):
        tt = tokenizer.tokenize(t)
        if len(tt) == 1 :
            tokens_a.append(tt[0])
            labellist.append(la[i])
        elif len(tt) > 1:
            tokens_a.append(tt[0])
            labellist.append(la[i])

    assert len(tokens_a) == len(labellist)

categoria

1553304765330

Existem 10 categorias no total, e o PAD é a categoria que complementa 0 quando o comprimento da frase não atinge o max_seq_length.

CLS é a categoria em que um sinalizador [CLS] é adicionado antes do início de cada frase e o SEP é o mesmo que o final da frase. (Porque Bert adicionará esses dois símbolos ao início e no final da frase.)

Código

De fato, Bert precisa modificar o código correspondente com base em problemas específicos. O NER é considerado um problema de marcação de sequência, que pode ser considerado um problema de classificação.

Em seguida, a parte principal da modificação é o run_classifier.py. Coloquei o código depois de modificar a tarefa a jusante em run_ner.py.

Além de pré -processamento da parte dos dados, você também precisa modificar a função de avaliação e a perda de perda.

trem

Primeiro, faça o download do modelo Bert com base no chinês pré-treinado (a página oficial do Bert Github pode ser baixada), armazene-o na pasta Bert_base_dir e, em seguida, coloque os dados na pasta NER_DIR. Você pode começar a treinar. sh run.sh

 export BERT_BASE_DIR=/opt/xxx/chinese_L-12_H-768_A-12
export NER_DIR=/opt/xxx/tmp
python run_NER.py 
          --task_name=NER 
          --do_train=true 
          --do_eval=true 
          --do_predict=true 
          --data_dir= $NER_DIR / 
          --vocab_file= $BERT_BASE_DIR /vocab.txt 
          --bert_config_file= $BERT_BASE_DIR /bert_config.json 
          --init_checkpoint= $BERT_BASE_DIR /bert_model.ckpt 
          --max_seq_length=256      # 根据实际句子长度可调
          --train_batch_size=32     # 可调
          --learning_rate=2e-5 
          --num_train_epochs=3.0 
          --output_dir= $BERT_BASE_DIR /output/

Resultados experimentais

1553304598242

A precisão recalls que podem ser vistos com base no conjunto de verificação estão acima de 95%.

Aqui estão alguns exemplos do conjunto de testes de previsão.

1553305073652

A figura a seguir mostra as categorias previstas usando Bert. Ainda é muito preciso ver que a previsão pode ser comparada com a categoria real.

1553305053823

A categoria real é mostrada abaixo.

1553305543516

Resumir

De fato, depois de ler o artigo de Bert, você pode entender mais profundamente combinando o código para ajustar as tarefas a jusante.

De fato, a tarefa a jusante é transformar seus dados no formato de que precisam e alterar a categoria de saída conforme necessário e modificar a função de avaliação e a função de perda.

Basta modificar o rótulo de acordo com as tarefas específicas a jusante na figura abaixo. O quarto na figura abaixo é modificá -lo no NER.

1553306691480

Mais tarde, escreverei uma explicação detalhada da atenção é tudo o que você precisa e o papel Bert, e explicarei os detalhes em combinação com o código, como como a ADD & NORM é implementada e por que a ADD & NORM é necessária. == Sinto que não preciso mais escrever. Bert se tornou popular em todas as ruas e não vou fazer rodas repetidas. Recomendamos que você diretamente o código e o papel.

Finalmente, existem muitas técnicas estranhas e eróticas para Bert explorar. . Por exemplo, você pode levar vetores de camada intermediária para emendar e depois congelar camadas intermediárias, etc.

Mais tarde, usei a versão Pytorch de Bert para fazer várias competições e experimentos para publicar artigos. Pessoalmente, acho que a versão Pytorch do BERT é mais simples e mais fácil de usar, e é mais conveniente congelar a camada intermediária Bert. Também pode acumular gradientes durante o processo de treinamento. Você pode herdar diretamente o modelo Bert e escrever seu próprio modelo.

(Eu usei Pytorch para fazer o experimento de Bert do NER. Quero abrir o código -fonte, mas estou com preguiça de resolver isso ... vou abrir o código um dia quando estou livre. Já existem muito código aberto na internet. 233 já)

Pytorch é tão delicioso ... é muito mais simples de modificar do que o tensorflow ...

Pessoalmente, recomendo que, se você fizer competições ou publicar artigos e experimentos, use a versão Pytorch. Pytorch dominou o mundo acadêmico. No entanto, o tensorflow no setor ainda é amplamente utilizado.

Consulte:
https://github.com/google-research/bert
https://github.com/kyzhouhzau/bert-ner
https://github.com/huggingface/transformers pytorch versão

Hoje, outro modelo foi lançado, 20 tarefas esmagando completamente Bert, a nova lista de modelos XLNET da CMU (código aberto)

Deixe um poço, haha, leia o artigo e leia o código.

https://mp.weixin.qq.com/s/29y2bg4ke-hnwsimd3aauw
https://github.com/zihangdai/xlnet

Bem, alguns dias atrás, vi o modelo T5 de código aberto do Google, de XLNet, Roberta, Albert, Spanbert para T5 agora ... Não consigo suportar nada ... Agora, as competições de PNL são basicamente dominadas pelo pré-treinamento ... Não consigo obter bons resultados sem pré-treinamento ...

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-16
tamanho 1.69MB
Vindo de Github

Aplicativos Relacionados

Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch ull stree 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
Chevereto PHP uploader de imagens v3.7.1

2022-08-05
Chevereto

2011-03-02

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos