Repo ini berisi kode kami untuk kertas "PromptLink: Memanfaatkan model bahasa besar untuk konsep biomedis lintas sumber yang menghubungkan".
Dalam makalah ini, kami membahas tugas yang menghubungkan konsep biomedis, yang bertujuan untuk menghubungkan konsep biomedis di seluruh sumber/sistem berdasarkan makna semantik dan pengetahuan biomedis mereka. Ini semata-mata bergantung pada nama konsep, dan dengan demikian dapat mencakup berbagai aplikasi dunia nyata yang lebih luas. Tugas ini berbeda dari tugas yang ada seperti penghubung entitas, penyelarasan entitas, dan pencocokan ontologi, yang bergantung pada informasi kontekstual atau topologi tambahan. Contoh mainan dari tugas yang menghubungkan konsep biomedis dijelaskan dalam gambar berikut.

Gambar 1: Contoh mainan. Kiri: Konsep dalam EHR. Kanan: Konsep dalam kg biomedis.
PromptLink adalah konsep biomedis baru yang menghubungkan kerangka kerja yang memanfaatkan model bahasa besar (LLM). Pertama menggunakan model bahasa pra-terlatih yang berspesialisasi dalam biomedis untuk menghasilkan konsep kandidat yang sesuai dengan jendela konteks LLM. Kemudian, ia menggunakan LLM untuk menghubungkan konsep melalui prompt dua tahap. Prompt tahap pertama bertujuan untuk memperoleh pengetahuan biomedis sebelumnya dari LLM untuk tugas yang menghubungkan konsep, sementara prompt tahap kedua memaksa LLM untuk merefleksikan prediksi sendiri untuk lebih meningkatkan keandalannya. Tinjauan kerangka promptLink diilustrasikan dalam gambar berikut.

Gambar 2: Gambaran umum kerangka kerja promptLink yang kami usulkan.
["Persyaratan.txt" File dapat digunakan untuk mengunduh paket Python secara otomatis]
Python == 3.8.10
EditDistance == 0.6.2
api == 0.5.0
numpy == 1.19.5
OpenAI == 0.28.1
panda == 1.3.4
rank_bm25 == 0.2.2
SCIPY == 1.12.0
simString-fast == 0.3.0
TextDistance == 4.6.1
Torch == 1.10.0+Cu111
TQDM == 4.66.1
Transformers == 4.33.3
Kami mengkuratori dua konsep biomedis yang menghubungkan dataset tolok ukur: MIID (mimic-iii-ibkh-disease) dan cise (cradle-embkh-efek-sisi), menggunakan data dari dataset dataset Mimic-III knr yang dikumpulkan dari dataset yang besar, dataset EHR private EHR (sebuah dataset EHR private EHR, sebuah dataset EHR Private EHR dari EHR Private EISET dari EHR Private EISET, DATASET KRAASET PRIVATE DATASET KREASET KRIASET PRIVATE EII tautan IBKH, dan tautan sistem pengkodean UMLS UMLS. Karena sifat sensitif dari data medis dan pertimbangan privasi, ada pembatasan berbagi data. Untuk mendapatkan akses ke set data medis ini, pelatihan dan kredensial yang tepat mungkin diperlukan. Untuk bantuan lebih lanjut dengan akses data atau pertanyaan terkait lainnya, jangan ragu untuk menjangkau tim penulis kami.
Sebagian besar kode disimpan dalam tiga folder: "gen_candidates", "gen_gpt_responses", dan "baselines". Rincian lebih lanjut dapat ditemukan di dalam folder ini masing -masing.
Folder "Gen_Candidates": Folder ini berisi kode untuk representasi konsep PromptLink dan proses pembuatan kandidat.
Folder "Gen_GPT_RESPONSES": Folder ini menunjukkan bagaimana promptLink memanfaatkan LLM untuk mengambil jawaban prediksi akhir.
Folder "Baselines": Folder ini berisi kode untuk menjalankan semua metode dasar yang dibandingkan, termasuk BM25, jarak Levenshtein, BioBert, dan Sapbert.