Repo ini menyediakan model, kode & data makalah kami: Linkbert: Model bahasa pretraining dengan tautan dokumen (ACL 2022). [PDF] [Model Huggingface]
Linkbert adalah model bahasa pretrain baru (peningkatan Bert) yang menangkap tautan dokumen seperti hyperlink dan tautan kutipan untuk memasukkan pengetahuan yang membentang di beberapa dokumen. Secara khusus, itu pretrained dengan memberi makan dokumen terkait ke dalam konteks model bahasa yang sama, selain menggunakan satu dokumen seperti di Bert.
Linkbert dapat digunakan sebagai pengganti drop-in untuk Bert. Ini mencapai kinerja yang lebih baik untuk tugas pemahaman bahasa umum ( mis .

Kami merilis Linkerbert (-Base dan -sebah ukuran pretrained) untuk domain umum dan domain biomedis. Model -model ini memiliki format yang sama dengan model Huggingface Bert, dan Anda dapat dengan mudah mengubahnya dengan model Linkbert.
| Model | Ukuran | Domain | Corpus pretraining | Unduh tautan (? Huggingface) |
|---|---|---|---|---|
| Linkbert-base | Parameter 110m | Umum | Wikipedia dengan hyperlink | Michiyasunaga/Linkbert-Base |
| Linkerbert-Large | Parameter 340m | Umum | Wikipedia dengan hyperlink | Michiyasunaga/Linkbert-Large |
| Biolinkbert-Base | Parameter 110m | Biomedis | PubMed dengan tautan kutipan | michiyasunaga/biolinkbert-base |
| Biolinkbert-Large | Parameter 340m | Biomedis | PubMed dengan tautan kutipan | Michiyasunaga/Biolinkbert-Large |
Untuk menggunakan model ini? Transformers:
from transformers import AutoTokenizer , AutoModel
tokenizer = AutoTokenizer . from_pretrained ( 'michiyasunaga/LinkBERT-large' )
model = AutoModel . from_pretrained ( 'michiyasunaga/LinkBERT-large' )
inputs = tokenizer ( "Hello, my dog is cute" , return_tensors = "pt" )
outputs = model ( ** inputs ) Untuk menyempurnakan model, lihat Bagian 2 & 3 di bawah ini. Saat disesuaikan dengan tugas hilir, Linkbert mencapai hasil berikut.
Tolok ukur umum (MRQA dan lem):
| Hotpotqa | Triviaqa | Searchqa | Naturalq | Newsqa | Pasukan | LEM | |
|---|---|---|---|---|---|---|---|
| F1 | F1 | F1 | F1 | F1 | F1 | Skor rata -rata | |
| Bert-base | 76.0 | 70.3 | 74.2 | 76.5 | 65.7 | 88.7 | 79.2 |
| Linkbert-base | 78.2 | 73.9 | 76.8 | 78.3 | 69.3 | 90.1 | 79.6 |
| Bert-Large | 78.1 | 73.7 | 78.3 | 79.0 | 70.9 | 91.1 | 80.7 |
| Linkerbert-Large | 80.8 | 78.2 | 80.5 | 81.0 | 72.6 | 92.7 | 81.1 |
Benchmark Biomedis (Blurb, Medqa, MMLU, dll): Biolinkbert mencapai canggih baru?
| Skor uraian | PubMedqa | Bioasq | Medqa-usmle | |
|---|---|---|---|---|
| PubMedbert-Base | 81.10 | 55.8 | 87.5 | 38.1 |
| Biolinkbert-Base | 83.39 | 70.2 | 91.4 | 40.0 |
| Biolinkbert-Large | 84.30 | 72.2 | 94.8 | 44.6 |
| Obat mmlu-profesional | |
|---|---|
| GPT-3 (175 Params) | 38.7 |
| UnifiedQA (11b params) | 43.2 |
| Biolinkbert-Large (340m Params) | 50.7 |
Jalankan perintah berikut untuk membuat lingkungan Conda:
conda create -n linkbert python=3.8
source activate linkbert
pip install torch==1.10.1+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html
pip install transformers==4.9.1 datasets==1.11.0 fairscale==0.4.0 wandb sklearn seqevalAnda dapat mengunduh set data preproses yang kami evaluasi Linkerbert dari [di sini] . Cukup unduh file zip ini dan unzip. Ini termasuk:
Mereka semua diproses dalam format dataset Huggingface.
Jika Anda ingin melakukan preprocess data mentah dari awal, Anda dapat mengambil langkah -langkah berikut:
scripts/download_raw_data.shscripts/preprocess_{mrqa,blurb,medqa,mmlu}.py . Ubah direktori kerja ke src/ , dan ikuti instruksi di bawah ini untuk setiap dataset.
Untuk menyempurnakan dataset MRQA (HotpotqA, Triviaqa, NaturalQuestions, SearchQA, Newsqa, Skuad), jalankan perintah yang tercantum dalam run_examples_mrqa_linkbert-{base,large}.sh .
Untuk menyempurnakan dataset biomedial blurb (PubMedQA, BIOASQ, HOC, ChemProt, PICO, dll.), Jalankan perintah yang terdaftar dalam run_examples_blurb_biolinkbert-{base,large}.sh .
Untuk menyempurnakan dataset medqa-usmle, jalankan perintah yang tercantum dalam run_examples_medqa_biolinkbert-{base,large}.sh .
Untuk mengevaluasi model yang disesuaikan dengan baik pada pengobatan MMLU-profesional, jalankan perintah yang terdaftar di bagian bawah run_examples_medqa_biolinkbert-large.sh .
Kami juga menyediakan lembar kerja codalab, di mana kami merekam eksperimen kami. Anda mungkin berguna untuk mereplikasi percobaan menggunakan model, kode, data, dan lingkungan yang sama.
Jika Anda merasa pekerjaan kami bermanfaat, silakan kutip yang berikut:
@InProceedings { yasunaga2022linkbert ,
author = { Michihiro Yasunaga and Jure Leskovec and Percy Liang } ,
title = { LinkBERT: Pretraining Language Models with Document Links } ,
year = { 2022 } ,
booktitle = { Association for Computational Linguistics (ACL) } ,
}