Unduh LinkBERT - Unduh Kode Sumber LinkBERT

LinkBERT

Kode Sumber AI

1.0.0

Unduh

Linkbert: Model bahasa berpengetahuan luas dengan tautan dokumen

Repo ini menyediakan model, kode & data makalah kami: Linkbert: Model bahasa pretraining dengan tautan dokumen (ACL 2022). [PDF] [Model Huggingface]

Ringkasan

Linkbert adalah model bahasa pretrain baru (peningkatan Bert) yang menangkap tautan dokumen seperti hyperlink dan tautan kutipan untuk memasukkan pengetahuan yang membentang di beberapa dokumen. Secara khusus, itu pretrained dengan memberi makan dokumen terkait ke dalam konteks model bahasa yang sama, selain menggunakan satu dokumen seperti di Bert.

Linkbert dapat digunakan sebagai pengganti drop-in untuk Bert. Ini mencapai kinerja yang lebih baik untuk tugas pemahaman bahasa umum ( mis .

1. Model pretrained

Kami merilis Linkerbert (-Base dan -sebah ukuran pretrained) untuk domain umum dan domain biomedis. Model -model ini memiliki format yang sama dengan model Huggingface Bert, dan Anda dapat dengan mudah mengubahnya dengan model Linkbert.

Model	Ukuran	Domain	Corpus pretraining	Unduh tautan (? Huggingface)
Linkbert-base	Parameter 110m	Umum	Wikipedia dengan hyperlink	Michiyasunaga/Linkbert-Base
Linkerbert-Large	Parameter 340m	Umum	Wikipedia dengan hyperlink	Michiyasunaga/Linkbert-Large
Biolinkbert-Base	Parameter 110m	Biomedis	PubMed dengan tautan kutipan	michiyasunaga/biolinkbert-base
Biolinkbert-Large	Parameter 340m	Biomedis	PubMed dengan tautan kutipan	Michiyasunaga/Biolinkbert-Large

Untuk menggunakan model ini? Transformers:

 from transformers import AutoTokenizer , AutoModel
tokenizer = AutoTokenizer . from_pretrained ( 'michiyasunaga/LinkBERT-large' )
model = AutoModel . from_pretrained ( 'michiyasunaga/LinkBERT-large' )
inputs = tokenizer ( "Hello, my dog is cute" , return_tensors = "pt" )
outputs = model ( ** inputs )

Untuk menyempurnakan model, lihat Bagian 2 & 3 di bawah ini. Saat disesuaikan dengan tugas hilir, Linkbert mencapai hasil berikut.
Tolok ukur umum (MRQA dan lem):

	Hotpotqa	Triviaqa	Searchqa	Naturalq	Newsqa	Pasukan	LEM
	F1	F1	F1	F1	F1	F1	Skor rata -rata
Bert-base	76.0	70.3	74.2	76.5	65.7	88.7	79.2
Linkbert-base	78.2	73.9	76.8	78.3	69.3	90.1	79.6
Bert-Large	78.1	73.7	78.3	79.0	70.9	91.1	80.7
Linkerbert-Large	80.8	78.2	80.5	81.0	72.6	92.7	81.1

Benchmark Biomedis (Blurb, Medqa, MMLU, dll): Biolinkbert mencapai canggih baru?

	Skor uraian	PubMedqa	Bioasq	Medqa-usmle
PubMedbert-Base	81.10	55.8	87.5	38.1
Biolinkbert-Base	83.39	70.2	91.4	40.0
Biolinkbert-Large	84.30	72.2	94.8	44.6

	Obat mmlu-profesional
GPT-3 (175 Params)	38.7
UnifiedQA (11b params)	43.2
Biolinkbert-Large (340m Params)	50.7

2. Mengatur lingkungan dan data

Lingkungan

Jalankan perintah berikut untuk membuat lingkungan Conda:

conda create -n linkbert python=3.8
source activate linkbert
pip install torch==1.10.1+cu113 -f https://download.pytorch.org/whl/cu113/torch_stable.html
pip install transformers==4.9.1 datasets==1.11.0 fairscale==0.4.0 wandb sklearn seqeval

Data

Anda dapat mengunduh set data preproses yang kami evaluasi Linkerbert dari [di sini] . Cukup unduh file zip ini dan unzip. Ini termasuk:

Dataset Penjawab pertanyaan MRQA (Hotpotqa, Triviaqa, NaturalQuestions, SearchQA, Newsqa, Skuad)
Dataset NLP biomedis blurb (PubMedQA, BIOASQ, HOC, ChemProt, PICO, dll.)
Dataset penalaran biomedis medqa-usmle.
Dataset Penetapan Penetapan Kedokteran Profesional MMLU.

Mereka semua diproses dalam format dataset Huggingface.

Jika Anda ingin melakukan preprocess data mentah dari awal, Anda dapat mengambil langkah -langkah berikut:

Pertama -tama unduh dataset mentah dari sumber asli dengan mengikuti instruksi dalam scripts/download_raw_data.sh
Kemudian jalankan scripts/preprocess_{mrqa,blurb,medqa,mmlu}.py .

3. Fine-Tune Linkerbert

Ubah direktori kerja ke src/ , dan ikuti instruksi di bawah ini untuk setiap dataset.

MRQA

Untuk menyempurnakan dataset MRQA (HotpotqA, Triviaqa, NaturalQuestions, SearchQA, Newsqa, Skuad), jalankan perintah yang tercantum dalam run_examples_mrqa_linkbert-{base,large}.sh .

Uraian

Untuk menyempurnakan dataset biomedial blurb (PubMedQA, BIOASQ, HOC, ChemProt, PICO, dll.), Jalankan perintah yang terdaftar dalam run_examples_blurb_biolinkbert-{base,large}.sh .

Medqa & mmlu

Untuk menyempurnakan dataset medqa-usmle, jalankan perintah yang tercantum dalam run_examples_medqa_biolinkbert-{base,large}.sh .

Untuk mengevaluasi model yang disesuaikan dengan baik pada pengobatan MMLU-profesional, jalankan perintah yang terdaftar di bagian bawah run_examples_medqa_biolinkbert-large.sh .

Reproduktifitas

Kami juga menyediakan lembar kerja codalab, di mana kami merekam eksperimen kami. Anda mungkin berguna untuk mereplikasi percobaan menggunakan model, kode, data, dan lingkungan yang sama.

Kutipan

Jika Anda merasa pekerjaan kami bermanfaat, silakan kutip yang berikut:

 @InProceedings { yasunaga2022linkbert ,
  author =  { Michihiro Yasunaga and Jure Leskovec and Percy Liang } ,
  title =   { LinkBERT: Pretraining Language Models with Document Links } ,
  year =    { 2022 } ,  
  booktitle = { Association for Computational Linguistics (ACL) } ,  
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2025-09-10
ukuran 1.5MB
Berasal dari Github

Aplikasi Terkait

ML stack

2025-07-01
awesome free chatgpt

2025-01-04
pywin_contextmenu

2025-08-31
promptl

2025-02-17
tick.chat

2025-09-16
FastLoRAChat

2025-09-03

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
ML stack

Kode Sumber AI

1.0.0
awesome free chatgpt

Kode Sumber AI

1.0.0
pywin_contextmenu

Kode Sumber AI

Version update
Google Dorks

Kode sumber lainnya

1.0
shepherd

Kode sumber lainnya

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Kode sumber lainnya

v1.1.0-rc-3

Informasi Terkait Semua