Download de bert sklearn - bert sklearn Download do código fonte

bert sklearn

Outro código-fonte

1.0.0

Baixar

Wrapper Scikit-Learn para Finetune Bert

Um invólucro Scikit-Learn para o modelo BERT do FineTune Google para tarefas de sequência de texto e token com base na porta Huggingface Pytorch.

Inclui MLP configurável como classificador/regressor final para tarefas de texto e par de texto
Inclui classificador de sequência de token para tarefas NER, POS e Chunking
Inclui modelos pré -representados de SciBERT e BioBERT para domínios científicos e biomédicos.

Tente no Google Colab!

instalação

requer python> = 3,5 e pytorch> = 0.4.1

git clone -b master https://github.com/charles9n/bert-sklearn
cd bert-sklearn
pip install .

operação básica

model.fit(X,y) ou seja, Finetune BERT

X : Lista, Dados Pandas ou matriz de texto, pares de texto ou listas de token
y : Lista, Pandas Dataframe ou Numpy Matriz de etiquetas/metas

 from bert_sklearn import BertClassifier
from bert_sklearn import BertRegressor
from bert_sklearn import load_model

# define model
model = BertClassifier ()         # text/text pair classification
# model = BertRegressor()        # text/text pair regression
# model = BertTokenClassifier()  # token sequence classification

# finetune model
model . fit ( X_train , y_train )

# make predictions
y_pred = model . predict ( X_test )

# make probabilty predictions
y_pred = model . predict_proba ( X_test )

# score model on test data
model . score ( X_test , y_test )

# save model to disk
savefile = '/data/mymodel.bin'
model . save ( savefile )

# load model from disk
new_model = load_model ( savefile )

# do stuff with new model
new_model . score ( X_test , y_test )

Veja o caderno de demonstração.

opções de modelo

 # try different options...
model . bert_model = 'bert-large-uncased'
model . num_mlp_layers = 3
model . max_seq_length = 196
model . epochs = 4
model . learning_rate = 4e-5
model . gradient_accumulation_steps = 4

# finetune
model . fit ( X_train , y_train )

# do stuff...
model . score ( X_test , y_test )

Veja as opções

Ajuste hiperparâmetro

 from sklearn . model_selection import GridSearchCV

params = { 'epochs' :[ 3 , 4 ], 'learning_rate' :[ 2e-5 , 3e-5 , 5e-5 ]}

# wrap classifier in GridSearchCV
clf = GridSearchCV ( BertClassifier ( validation_fraction = 0 ), 
                    params ,
                    scoring = 'accuracy' ,
                    verbose = True )

# fit gridsearch 
clf . fit ( X_train , y_train )

Veja Demo_Tuning_HyperParameters Notebook.

Conjuntos de dados de cola

Os conjuntos de dados de trem e dev dos benchmarks de cola (avaliação de entendimento de idiomas generalizados) foram usados com o modelo bert-base-uncased e comparados novamente os resultados relatados no Google Paper e Glue Liderond Racon.

	Mnli (m/mm)	Qqp	Qnli	SST-2	Cola	STS-B	Mrpc	Rte
Base Bert (tabela de classificação)	84.6/83.4	89.2	90.1	93.5	52.1	87.1	84.8	66.4
Bert-Sklearn	83.7/83.9	90.2	88.6	92.32	58.1	89.7	86.8	64.6

As execuções individuais podem ser encontradas aqui.

Conll-2003 nomeado reconhecimento de entidade (NER)

Resultados do NER para tarefa compartilhada CoNLL-2003

	Dev F1	Teste F1
Papel Bert	96.4	92.4
Bert-Sklearn	96.04	91.97

Estatísticas de nível de span no teste:

processed 46666 tokens with 5648 phrases ; found: 5740 phrases ; correct: 5173.
accuracy:  98.15% ; precision:  90.12% ; recall:  91.59% ; FB1:  90.85
              LOC: precision:  92.24% ; recall:  92.69% ; FB1:  92.46  1676
             MISC: precision:  78.07% ; recall:  81.62% ; FB1:  79.81  734
              ORG: precision:  87.64% ; recall:  90.07% ; FB1:  88.84  1707
              PER: precision:  96.00% ; recall:  96.35% ; FB1:  96.17  1623

Consulte Ner_English Notebook para uma demonstração usando o modelo 'bert-base-cased' .

NCBI NER BIOMEDICAL

Resultados do NER usando Bert-Sklearn com SciBERT e BioBERT na tarefa de reconhecimento de nome do NCBI disease Corpus .

O SOTA anterior para esta tarefa é 87,34 para F1 no conjunto de testes.

	Teste F1 (Bert-Sklearn)	Teste F1 (de papéis)
Bert Base Cased	85.09	85.49
Scibert Basevocab CASED	88.29	86.91
Scibert Scivocab Cased	87.73	86.45
BioBert PubMed_v1.0	87,86	87.38
BioBert PubMed_PMC_V1.0	88.26	89.36
BioBert PubMed_v1.1	87.26	N / D

Consulte NER_NCBI_DISEASE_BIOBERT_SCIBERT Notebook para uma demonstração usando os modelos SciBERT e BioBERT .

Consulte Papel Scibert e papel BioBert para obter mais informações sobre os respectivos modelos.

Outros exemplos

Consulte o notebook IMDB para uma demonstração de classificação de texto na tarefa de revisão do banco de dados de filmes da Internet.
Consulte o Notebook Chunking_English para uma demonstração em Chunking sintático usando os dados da tarefa de Chunking CoNLL-2000 .
Consulte Ner_Chinese Notebook para uma demonstração usando 'bert-base-chinese' para o NER chinês.

testes

Execute testes com pytest:

python -m pytest -sv tests/

Referências

Google BERT Github and Paper: "Bert: pré-treinamento de transformadores bidirecionais profundos para entendimento de idiomas" (10/2018) por J. Devlin, M. Chang, K. Lee e K. Toutanova
Huggingface pytorch-pretrained-BERT Github
SciBERT Github e Artigo: "Scibert: incorporações contextualizadas pré -tenhadas para texto científico" (3/2019) por I. Beltagy, A. Cohan e K. Lo Lo
BioBERT Github and Paper: "BioBert: um modelo de representação de linguagem biomédica pré-treinada para mineração de texto biomédico" (2/2019) por J. Lee, W. Yoon, S. Kim, D. Kim, S. Kim, Ch So e J. Kang

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2025-04-18
tamanho 571.7KB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Outro código-fonte

v1.1.0-rc-3

Informações Relacionadas Todos