Download bert sklearn - Unduh Kode Sumber bert sklearn

bert sklearn

Kode sumber lainnya

1.0.0

Unduh

pembungkus scikit-learn ke finetune bers

Pembungkus scikit-learn untuk Finetune Google Bert Model untuk tugas teks dan urutan token berdasarkan port pytorch huggingface.

Termasuk MLP yang dapat dikonfigurasi sebagai pengklasifikasi/regressor akhir untuk tugas teks dan pasangan teks
Termasuk Token Sequence Classifier untuk NER, POS, dan Tugas Chunking
Termasuk model SciBERT dan BioBERT pretrained untuk domain ilmiah dan biomedis.

Coba di Google Colab!

instalasi

membutuhkan python> = 3.5 dan pytorch> = 0.4.1

git clone -b master https://github.com/charles9n/bert-sklearn
cd bert-sklearn
pip install .

Operasi Dasar

model.fit(X,y) yaitu finetune BERT

X : Daftar, DataFrame PANDAS, atau Susunan Teks, Pasangan Teks, atau Token Numpy
y : Daftar, DataFrame PANDAS, atau serangkaian label/target numpy

 from bert_sklearn import BertClassifier
from bert_sklearn import BertRegressor
from bert_sklearn import load_model

# define model
model = BertClassifier ()         # text/text pair classification
# model = BertRegressor()        # text/text pair regression
# model = BertTokenClassifier()  # token sequence classification

# finetune model
model . fit ( X_train , y_train )

# make predictions
y_pred = model . predict ( X_test )

# make probabilty predictions
y_pred = model . predict_proba ( X_test )

# score model on test data
model . score ( X_test , y_test )

# save model to disk
savefile = '/data/mymodel.bin'
model . save ( savefile )

# load model from disk
new_model = load_model ( savefile )

# do stuff with new model
new_model . score ( X_test , y_test )

Lihat Demo Notebook.

Opsi Model

 # try different options...
model . bert_model = 'bert-large-uncased'
model . num_mlp_layers = 3
model . max_seq_length = 196
model . epochs = 4
model . learning_rate = 4e-5
model . gradient_accumulation_steps = 4

# finetune
model . fit ( X_train , y_train )

# do stuff...
model . score ( X_test , y_test )

Lihat opsi

Penyetelan hiperparameter

 from sklearn . model_selection import GridSearchCV

params = { 'epochs' :[ 3 , 4 ], 'learning_rate' :[ 2e-5 , 3e-5 , 5e-5 ]}

# wrap classifier in GridSearchCV
clf = GridSearchCV ( BertClassifier ( validation_fraction = 0 ), 
                    params ,
                    scoring = 'accuracy' ,
                    verbose = True )

# fit gridsearch 
clf . fit ( X_train , y_train )

Lihat notebook demo_tuning_hyperparameters.

Lem kumpulan data

Kumpulan data kereta dan dev dari tolok ukur lem (evaluasi pemahaman bahasa umum) digunakan dengan model bert-base-uncased dan membandingkan sekali lagi hasil yang dilaporkan di Google Paper dan Glue Leaderboard.

	Mnli (m/mm)	QQP	Qnli	SST-2	Cola	STS-B	Mrpc	Rte
Base Bert (papan peringkat)	84.6/83.4	89.2	90.1	93.5	52.1	87.1	84.8	66.4
Bert-Sklearn	83.7/83.9	90.2	88.6	92.32	58.1	89.7	86.8	64.6

Lari individu dapat ditemukan dapat ditemukan di sini.

CONLL-2003 Named Entity Recognition (NER)

Hasil NER untuk tugas bersama CoNLL-2003

	Dev F1	Tes F1
Kertas Bert	96.4	92.4
Bert-Sklearn	96.04	91.97

Statistik level rentang pada tes:

processed 46666 tokens with 5648 phrases ; found: 5740 phrases ; correct: 5173.
accuracy:  98.15% ; precision:  90.12% ; recall:  91.59% ; FB1:  90.85
              LOC: precision:  92.24% ; recall:  92.69% ; FB1:  92.46  1676
             MISC: precision:  78.07% ; recall:  81.62% ; FB1:  79.81  734
              ORG: precision:  87.64% ; recall:  90.07% ; FB1:  88.84  1707
              PER: precision:  96.00% ; recall:  96.35% ; FB1:  96.17  1623

Lihat Ner_English Notebook untuk demo menggunakan model 'bert-base-cased' .

NCBI Biomedis Ner

Hasil NER Menggunakan Bert-Sklearn dengan SciBERT dan BioBERT pada tugas pengenalan nama NCBI disease Corpus .

SOTA sebelumnya untuk tugas ini adalah 87,34 untuk F1 pada set tes.

	Tes F1 (Bert-Sklearn)	uji F1 (dari kertas)
Bert Base Cased	85.09	85.49
Scibert Basevocab Cased	88.29	86.91
Scibert Scivocab Cased	87.73	86.45
BioBert PubMed_V1.0	87.86	87.38
BioBert PubMed_PMC_V1.0	88.26	89.36
BioBert PubMed_V1.1	87.26	Na

Lihat notebook ner_ncbi_disease_biobert_scibert untuk demo menggunakan model SciBERT dan BioBERT .

Lihat kertas scibert dan kertas biobert untuk info lebih lanjut tentang model masing -masing.

Contoh lainnya

Lihat IMDB Notebook untuk demo klasifikasi teks pada tugas sentimen peninjauan database film internet.
Lihat Notebook Chunking_English untuk demo pada chunking sintaksis menggunakan data tugas chunking CoNLL-2000 .
Lihat Ner_chinese Notebook untuk demo menggunakan 'bert-base-chinese' untuk Ner Cina.

tes

Jalankan tes dengan pytest:

python -m pytest -sv tests/

referensi

Google BERT Github dan Kertas: "Bert: Pra-pelatihan transformator dua arah yang dalam untuk pemahaman bahasa" (10/2018) oleh J. Devlin, M. Chang, K. Lee, dan K. Toutanova
Huggingface pytorch-pretrained-BERT Github
SciBERT Github dan Kertas: "Scibert: Embeddings kontekstual pretrain untuk teks ilmiah" (3/2019) oleh I. Beltagy, A. Cohan, dan K. Lo
BioBERT GitHub dan Kertas: "BioBert: Model Representasi Bahasa Biomedis Pra-terlatih untuk Penambangan Teks Biomedis" (2/2019) oleh J. Lee, W. Yoon, S. Kim, D. Kim, S. Kim, Ch So, dan J. Kang

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-04-18
ukuran 571.7KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub the via/releases

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua