repo นี้มีรหัสของเราสำหรับกระดาษ "Promptlink: ใช้ประโยชน์จากแบบจำลองภาษาขนาดใหญ่สำหรับแนวคิดการเชื่อมโยงทางชีวการแพทย์ข้ามแหล่งกำเนิด"
ในบทความนี้เราได้กล่าวถึงแนวคิดการเชื่อมโยงแนวคิดทางชีวการแพทย์ซึ่งมีวัตถุประสงค์เพื่อเชื่อมโยงแนวคิดทางชีวการแพทย์ข้ามแหล่งข้อมูล/ระบบตามความหมายเชิงความหมายและความรู้ด้านชีวการแพทย์ มันขึ้นอยู่กับชื่อแนวคิดเพียงอย่างเดียวและสามารถครอบคลุมแอพพลิเคชั่นในโลกแห่งความจริงที่กว้างขึ้น งานนี้แตกต่างจากงานที่มีอยู่เช่นการเชื่อมโยงเอนทิตีการจัดตำแหน่งเอนทิตีและการจับคู่อภิปรัชญาซึ่งขึ้นอยู่กับข้อมูลบริบทหรือทอพอโลยีเพิ่มเติม ตัวอย่างของเล่นของงานการเชื่อมโยงแนวคิดทางชีวการแพทย์อธิบายไว้ในรูปต่อไปนี้

รูปที่ 1: ตัวอย่างของเล่น ซ้าย: แนวคิดใน EHR ขวา: แนวคิดใน KG ชีวการแพทย์
Promptlink เป็นแนวคิดการเชื่อมโยงทางชีวการแพทย์แบบใหม่ที่ใช้ประโยชน์จากแบบจำลองภาษาขนาดใหญ่ (LLMs) ก่อนอื่นใช้รูปแบบภาษาที่ผ่านการฝึกอบรมมาก่อนที่เชี่ยวชาญด้านชีวการแพทย์เพื่อสร้างแนวคิดของผู้สมัครที่เหมาะสมกับหน้าต่างบริบท LLM จากนั้นมันใช้ LLM เพื่อเชื่อมโยงแนวคิดผ่านพรอมต์สองขั้นตอน พรอมต์ขั้นแรกมีจุดมุ่งหมายเพื่อล้วงเอาความรู้ก่อนหน้าทางชีวการแพทย์จาก LLM สำหรับงานการเชื่อมโยงแนวคิดในขณะที่พรอมต์ขั้นที่สองบังคับ LLM เพื่อสะท้อนการคาดการณ์ของตัวเองเพื่อเพิ่มความน่าเชื่อถือของพวกเขาต่อไป ภาพรวมของเฟรมเวิร์ก Promptlink จะแสดงในรูปต่อไปนี้

รูปที่ 2: ภาพรวมของเฟรมเวิร์ก PromptLink ที่เราเสนอ
ไฟล์ ["chendect.txt" สามารถใช้ในการดาวน์โหลดแพ็คเกจ Python โดยอัตโนมัติ]
Python == 3.8.10
EditDistance == 0.6.2
ไฟ == 0.5.0
numpy == 1.19.5
openai == 0.28.1
แพนด้า == 1.3.4
RANK_BM25 == 0.2.2
scipy == 1.12.0
Simstring-Fast == 0.3.0
TextDistance == 4.6.1
TORCH == 1.10.0+CU111
tqdm == 4.66.1
Transformers == 4.33.3
เราดูแลสองแนวคิดทางชีวการแพทย์ที่เชื่อมโยงชุดข้อมูลมาตรฐาน: MIID (MIMIC-III-IBKH-Disease) และ CISE (CRADLE-IBKH-SIDE-EFFECT) โดยใช้ข้อมูลจากชุดข้อมูล MIMIC-III EHR LIGHT) ลิงค์ IBKH และลิงก์ระบบการเข้ารหัส UMLS UMLS เนื่องจากลักษณะที่ละเอียดอ่อนของข้อมูลทางการแพทย์และการพิจารณาความเป็นส่วนตัวจึงมีข้อ จำกัด ในการแบ่งปันข้อมูล เพื่อให้สามารถเข้าถึงชุดข้อมูลทางการแพทย์เหล่านี้อาจจำเป็นต้องมีการฝึกอบรมและข้อมูลรับรองที่เหมาะสม สำหรับความช่วยเหลือเพิ่มเติมเกี่ยวกับการเข้าถึงข้อมูลหรือการสอบถามอื่น ๆ ที่เกี่ยวข้องโปรดอย่าลังเลที่จะติดต่อทีมผู้เขียนของเรา
รหัสส่วนใหญ่จะถูกเก็บไว้ในสามโฟลเดอร์: "gen_candidates", "gen_gpt_responses" และ "baselines" รายละเอียดเพิ่มเติมสามารถพบได้ภายในโฟลเดอร์เหล่านี้ตามลำดับ
โฟลเดอร์ "gen_candidates": โฟลเดอร์นี้มีรหัสสำหรับการแสดงแนวคิดของ PromptLink และกระบวนการสร้างผู้สมัคร
โฟลเดอร์ "GEN_GPT_RESSESES": โฟลเดอร์นี้แสดงให้เห็นว่า PromptLink ใช้ประโยชน์จาก LLM เพื่อดึงคำตอบการทำนายขั้นสุดท้ายได้อย่างไร
โฟลเดอร์ "baselines": โฟลเดอร์นี้มีรหัสสำหรับการเรียกใช้วิธีพื้นฐานทั้งหมดเปรียบเทียบรวมถึง BM25, ระยะทาง Levenshtein, Biobert และ Sapbert