medical_nlp
สรุปการประเมิน/การแข่งขันโดเมน NLP การแพทย์ชุดข้อมูลกระดาษและทรัพยากรแบบจำลองที่ผ่านการฝึกอบรมมาก่อน
สรุปการประเมิน/การแข่งขัน NLP การแพทย์ชุดข้อมูลเอกสารและโมเดลที่ผ่านการฝึกอบรมมาก่อน
ข่าว
- - 2024/11/14 เพิ่ม
4. VLM数据集, 5.3 医疗VLM , 5.4 医疗VLM Benchmark ในอนาคตการมุ่งเน้นคือการรักษาทรัพยากรที่เกี่ยวข้องที่เกี่ยวข้องกับทิศทางของการบำรุงรักษา VLM ทางการแพทย์ Repo จะได้รับการดูแลโดย Rongsheng Wang - - ก่อนปี 2024/11/14 ขณะที่ Cris Lee ออกจากสนามการแพทย์ NLP ในปี 2021 ตอนนี้ repo นี้ได้รับการดูแลโดย Xidong Wang, Ziyue Lin, Jing Tang
สารบัญ
- 1. การประเมินผล
- 1.1 การประเมินเกณฑ์มาตรฐานทางการแพทย์ของจีน: CMB / CMEXAM / PROTCHCBLUE
- 1.2 การประเมินมาตรฐานการแพทย์ภาษาอังกฤษ:
- 2. การแข่งขัน
- 2.1 การแข่งขันอย่างต่อเนื่อง
- 2.2 เกมจบ
- 3. ชุดข้อมูล LLM
- 4. ชุดข้อมูล VLM
- 5. โมเดลโอเพนซอร์สที่ผ่านการฝึกอบรมมาก่อน
- 5.1 การแพทย์ PLM
- 5.2 การแพทย์ LLM
- 5.3 การแพทย์ VLM
- 5.4 เกณฑ์มาตรฐาน VLM การแพทย์
- 6. เอกสารที่เกี่ยวข้อง
- 6.1 เอกสารที่อาจเป็นประโยชน์ในยุคหลัง Chatgpt
- 6.2 บทความภาพรวม
- 6.3 บทความเฉพาะงาน
- 6.4 ดัชนีการประชุม
- 7. ชุดเครื่องมือโอเพ่นซอร์ส
- 8. โซลูชั่นผลิตภัณฑ์เกรดอุตสาหกรรม
- 9. การแบ่งปันบล็อก
- 10. ลิงก์ที่เป็นมิตร
1. การประเมินผล
1.1 การประเมินเกณฑ์มาตรฐานทางการแพทย์ของจีน: CMB / CMEXAM / PROTCHCBLUE
CMB
- ที่อยู่: https://github.com/freedomintelligence/cmb
- ที่มา: การสอบในงานทางการแพทย์ทางคลินิกต่างๆในทุกขั้นตอน; การปรึกษาหารือเกี่ยวกับกรณีที่ซับซ้อนทางคลินิก
cmexam
- ที่อยู่: https://github.com/williamliujl/cmexam
- ที่มา: การตรวจสอบคุณสมบัติของแพทย์ภาคปฏิบัติในปีก่อนคำถาม
พรอมต์
- ที่อยู่: https://github.com/michael-wzhu/promptcblue
- ที่มา: cblue
พรอมต์
- ที่อยู่: https://github.com/cbluebenchmark/cblue
- ที่มา: ชุดข้อมูลของการแข่งขันประเมินผลทางวิชาการก่อนหน้านี้และธุรกิจการค้นหาทางการแพทย์ของ Ali Quark
มื้อใหญ่
- ที่อยู่: https://arxiv.org/abs/2312.12806
- ที่มา: มีคำถาม 40,041 คำถามจากการสอบทางการแพทย์และรายงานครอบคลุมความเชี่ยวชาญทั้งหมด
1.2 การประเมินมาตรฐานการแพทย์ภาษาอังกฤษ:
MultimedBench
- บทนำ: มันเป็นรูปแบบการสร้างแบบหลายรูปแบบขนาดใหญ่ที่ได้มาจาก Google
↥กลับไปด้านบน
2. การแข่งขัน
2.1 การแข่งขันอย่างต่อเนื่อง
2.2 เกมจบ
2.2.1 การแข่งขันภาษาอังกฤษ
2.2.2 การแข่งขันจีน
การถ่ายภาพ NLP - การสร้างรายงานการวินิจฉัยการถ่ายภาพทางการแพทย์
- ที่อยู่: https://gaiic.caai.cn/ai2023/
- แหล่งที่มา: 2023 เทคโนโลยีปัญญาประดิษฐ์ระดับโลกนวัตกรรมการแข่งขันการแข่งขัน 1
ความท้าทาย Triage อย่างง่ายสำหรับข้อกำหนดโรคที่ไม่ได้มาตรฐาน 2.0
- ที่อยู่: http://challenge.xfyun.cn/topic/info?type=disease-claims-2022&ch=ds22-dw-sq03
- ที่มา: iflytek
งานประเมินผลการประชุมการประมวลผลข้อมูลสุขภาพจีนครั้งที่ 8 (Chip2022)
- ที่อยู่: http://cips-chip.org.cn/
- ที่มา: Chip2022
IFLYTEK-MEDICAL BINGE และความท้าทายการระบุความสัมพันธ์
- ที่อยู่: http://www.fudan-disc.com/sharedtask/imcs21/index.html
- ที่มา: iflytek
"ตับ" นั้นนุ่มและนุ่มและแบบจำลองขนาดใหญ่สร้างรูปแบบใหม่ของบริการแบบโต้ตอบสำหรับแพทย์และผู้ป่วยที่เป็นโรคตับ
- ที่อยู่: http://www.fudan-disc.com/sharedtask/imcs21/index.html เดียวกัน
- ที่มา: คณะกรรมการจัดงานการประชุมสุดยอด Digital China Construction Summit
↥กลับไปด้านบน
3. ชุดข้อมูล LLM
3.1 จีน
Huatuo-26m
- ที่อยู่: https://github.com/freedomintelligence/huatuo-26m
- บทนำ: Huatuo-26M เป็นคำถามการแพทย์แผนจีนที่ใหญ่ที่สุดและชุดข้อมูลคำตอบ
ชุดข้อมูลบทสนทนาทางการแพทย์ของจีน
- ที่อยู่: https://github.com/toyhom/chinese-medical-dialogue-data
- บทนำ: ข้อมูลตอบคำถามทางการแพทย์ที่มีหกแผนก
cblue
- ที่อยู่: https://github.com/cbluebenchmark/cblue
- บทนำ: ครอบคลุมการสกัดข้อมูลข้อความทางการแพทย์ (การรับรู้เอนทิตี, การสกัดความสัมพันธ์)
CmedQa2 (108K)
- ที่อยู่: https://github.com/zhangsheng93/cmedqa2
- บทนำ: คำถามและตอบคำถามมากกว่า 100,000 ชุดในการแพทย์แผนจีน
XYWY-KG (294K TRIPLE)
- ที่อยู่: https://github.com/baiyang2464/chatbot-base-on-knogyledge-graph
- บทนำ: 44.1K Entity 294.1K Triple
39Health-KG (210K สาม)
- ที่อยู่: https://github.com/zhihao-chen/qasystemonmedicalgraph
- บทนำ: รวมถึง 15 รายการของข้อมูลรวมถึง 7 ประเภทของหน่วยงานประมาณ 37,000 หน่วยงานและความสัมพันธ์ของนิติบุคคล 210,000
ระบบการแพทย์
- ที่อยู่: https://github.com/ucsd-ai4h/medical-dialogue-system
- ชุดข้อมูล MedDialog (จีน) มีการสนทนาระหว่างแพทย์และผู้ป่วย (จีน) ชุดข้อมูลนี้มีการสนทนา 1.1 ล้านครั้งและ 4 ล้านข้อความ ข้อมูลยังคงเพิ่มขึ้นและจะมีการเพิ่มการสนทนามากขึ้นในอนาคต
ข้อมูลการสนทนาทางการแพทย์ของจีน
- ที่อยู่: https://github.com/toyhom/chinese-medical-dialogue-data
- ชุดข้อมูลนี้มีข้อมูลทั้งหมด 792,099 ข้อมูลจากหกแผนกที่แตกต่างกันรวมถึงศัลยกรรมกระดูกกุมารเวชศาสตร์สูติศาสตร์และนรีเวชวิทยา, อายุรศาสตร์, การผ่าตัดและมะเร็งวิทยา
Yidu-S4K
- ที่อยู่: http://openkg.cn/dataset/yidu-s4k
- บทนำ: การจดจำเอนทิตี, เอนทิตีและการสกัดแอตทริบิวต์
Yidu-N7K
- ที่อยู่: http://openkg.cn/dataset/yidu-n7k
- บทนำ: มาตรฐานภาษาทางคลินิก
ชุดคำถามยาและคำตอบ
- ที่อยู่: https://github.com/zhangsheng93/cmedqa2
- บทนำ: คำถามและคำตอบทางการแพทย์
คำถามเกี่ยวกับแพทย์และผู้ป่วยชาวจีนและคำตอบข้อมูลการสนทนา
- ที่อยู่: https://github.com/ucsd-ai4h/medical-dialogue-system
- บทนำ: คำถามและคำตอบทางการแพทย์
CPUBMED-KG (4.4M สาม)
- ที่อยู่: https://cpubmed.openi.org.cn/graph/wiki
- บทนำ: ข้อมูลวารสารข้อความเต็มคุณภาพสูงของสมาคมการแพทย์จีน
กราฟความรู้ทางการแพทย์ของจีน CMEKG (1M สาม)
- ที่อยู่: http://cmekg.pcl.ac.cn/
- บทนำ: CMEKG (กราฟความรู้ทางการแพทย์ของจีน)
การประเมิน Chip ปีที่ผ่านมา (การประเมินอย่างเป็นทางการ)
- ที่อยู่: http://cips-chip.org.cn/2022/callforeval; http://www.cips-chip.org.cn/2021/; http://cips-chip.org.cn/2020/
- บทนำ: การประเมิน Chip ปีที่ผ่านมา (การประเมินอย่างเป็นทางการ)
ชุดข้อมูลโรคเบาหวานโรงพยาบาล Ruijin (โรคเบาหวาน)
- ที่อยู่: https://tianchi.aliyun.com/competition/entrance/231687/information
- บทนำ: ชุดข้อมูลโรคเบาหวานโรงพยาบาล Ruijin (โรคเบาหวาน)
Tianchi Covid-19 การแข่งขันจับคู่การแข่งขัน (ใหม่ coronavirus)
- ที่อยู่: https://tianchi.aliyun.com/competition/entrance/231776/information
- บทนำ: ข้อมูลของการแข่งขันนี้รวมถึง: คู่ข้อมูลปัญหาทางการแพทย์และข้อมูลการติดฉลากหลังจาก desensitization
3.2 ภาษาอังกฤษ
การตัดยา
- ที่อยู่: https://github.com/chanzuckerberg/medmentions
- บทนำ: ชุดข้อมูลการเชื่อมโยงเอนทิตีชีวการแพทย์ตาม PubMed Abstract
WebMedqa
- ที่อยู่: https://github.com/hejunqing/webmedqa
- บทนำ: คำถามและคำตอบทางการแพทย์
ดาวรุ่ง
- ที่อยู่: https://www.siphs.org/
- บทนำ: ข้อมูลการเชื่อมโยงเอนทิตีทางการแพทย์ในโซเชียลมีเดีย เผยแพร่เมื่อ EMNLP2020
PubMedqa
- ที่อยู่: https://arxiv.org/abs/1909.06146
- บทนำ: ชุดข้อมูลตอบคำถามทางการแพทย์ตามสารสกัด PubMed
Mediqa
- ที่อยู่: https://sites.google.com/view/mediqa2021
- บทนำ: ข้อความสรุป
ชุดข้อมูล chatdoctor -1
- ที่อยู่: https://drive.google.com/file/d/1lyfqiwllsclhgrcutwuee_iacnq6xnut/view?usp=sharing
- บทนำ: 100,000 บทสนทนาจริงระหว่างผู้ป่วยและแพทย์จาก HealthCaremagic.com
ชุดข้อมูล ChatDoctor-2
- ที่อยู่: https://drive.google.com/file/d/1zkbQgyqwc7djhs3n9tqyqvpdddqmzacla/view?usp=sharing
- บทนำ: การสนทนาจริง 10K ระหว่างผู้ป่วยและแพทย์จาก iCliniq.com
เครื่องทางชีวภาพ
- ที่อยู่: https://github.com/bio-nlp/bioinstruct
- บทนำ: คำแนะนำมากกว่า 25,000 คำแนะนำสำหรับงานด้านชีวการแพทย์รวมถึง แต่ไม่ จำกัด เฉพาะคำถามและคำตอบ (QA) การสกัดข้อมูล (เช่น) และการสร้างข้อความ
ข้อมูล Visual Med-Alpaca
- ที่อยู่: https://github.com/cambridgeltl/visual-med-alpaca/tree/main/data
- บทนำ: ข้อมูลสำหรับการฝึกอบรม Visual Med-Alpaca ที่ได้มาจาก Bigbio, Roco และ GPT-3.5-turbo
chexpert plus
- ที่อยู่: https://github.com/stanford-aimi/chetrit-plus
- บทนำ: ชุดข้อมูลข้อความที่ใหญ่ที่สุดที่ตีพิมพ์ในด้านรังสีวิทยามีโทเค็นตำราทั้งหมด 36 ล้านรายการที่มีภาพคุณภาพสูงในรูปแบบ dicom รวมถึงภาพจำนวนมากและเมตาดาต้าของผู้ป่วยครอบคลุมกลุ่มคลินิกและสังคมที่หลากหลาย
↥กลับไปด้านบน
4. ชุดข้อมูล VLM
| ชุดข้อมูล | กระดาษ | คนอื่น ๆ | คำสำคัญ |
|---|
| Medtrinity-25m | การเชื่อมโยง | การเชื่อมโยง | 25 million images , 10 modalities , 65 diseases , VQA , EN |
| llava-med | การเชื่อมโยง | การเชื่อมโยง | 630k images , VQA , EN |
| จีน-ลลา-เมด | - | การเชื่อมโยง | 60k images , VQA , ZH |
| Huatuogpt-Vision | การเชื่อมโยง | การเชื่อมโยง | 647k images , VQA , EN |
| medvidqa | การเชื่อมโยง | การเชื่อมโยง | 7k videos , VQA , EN |
| chimed-vl | การเชื่อมโยง | การเชื่อมโยง | 1M images , VQA , EN , ZH |
| รัศมี | การเชื่อมโยง | การเชื่อมโยง | 16M images , 5000 diseases , VQA , EN , 2D/3D |
| biomedparsedata | การเชื่อมโยง | การเชื่อมโยง | 6.8 million image-mask-description 45 biomedical image segmentation datasets , 9 modalities , EN , 2D |
| Omnimedvqa | การเชื่อมโยง | การเชื่อมโยง | 118,010 images , 12 modalities , 2D , 20 human anatomical regions |
| prect | การเชื่อมโยง | การเชื่อมโยง | 160K volumes , 42M slices , 3D , CT |
| GMAI-VL-5.5M | การเชื่อมโยง | การเชื่อมโยง | 5.5m image and text , 219 specialized medical imaging datasets , 2D , VQA |
| SA-MED2D-20M | การเชื่อมโยง | การเชื่อมโยง | 4.6 million 2D medical images and 19.7 million corresponding masks , 2D , EN |
| บึง IMIS | การเชื่อมโยง | การเชื่อมโยง | 6.4 million images, 273.4 million masks (56 masks per image), 14 imaging modalities, and 204 segmentation targets EN 204 |
↥กลับไปด้านบน
5. โมเดลโอเพนซอร์สที่ผ่านการฝึกอบรมมาก่อน
5.1 การแพทย์ PLM
Biobert:
- ที่อยู่: https://github.com/naver/biobert-pretrained
- บทนำ: Biobert เป็นรูปแบบการเป็นตัวแทนภาษาในสาขาวิทยาศาสตร์ชีวการแพทย์ซึ่งใช้เป็นพิเศษสำหรับงานการขุดข้อความทางชีวการแพทย์เช่นการจดจำเอนทิตีทางชีวการแพทย์ชื่อการสกัดความสัมพันธ์คำถามและคำตอบ ฯลฯ ฯลฯ
5.2 การแพทย์ LLM
5.2.1 รูปแบบการแพทย์หลายภาษา
อพอลโล:
- ที่อยู่: https://github.com/freedomintelligence/apollomoe
- บทนำ: Democratize LLM อย่างมีประสิทธิภาพใน 50 ยาภาษาผ่านการผสมผสานของผู้เชี่ยวชาญด้านภาษาในครอบครัว
อพอลโล:
- ที่อยู่: https://github.com/freedomintelligence/apollo
- บทนำ: ยาหลายภาษาที่มีน้ำหนักเบา LLM, เป็นที่นิยมในการรักษาความฉลาดทางการแพทย์ปัญญาประดิษฐ์ถึง 6 พันล้านคน
mmedlm:
- ที่อยู่: https://github.com/magic-ai4med/mmedlm
- บทนำ: รูปแบบภาษาการแพทย์หลายภาษาโอเพ่นซอร์สแรก
5.2.2 รูปแบบภาษาใหญ่การแพทย์จีน
- Bentsao:
- ที่อยู่: https://github.com/scir-hi/huatuo-llama-med-chinese
- บทนำ: Bentsao ขึ้นอยู่กับ LLAMA-7B และได้รับจากการปรับแต่งคำแนะนำ/คำแนะนำทางการแพทย์ของจีน นักวิจัยได้สร้างชุดข้อมูลการสอนทางการแพทย์ของจีนผ่านกราฟความรู้ทางการแพทย์และ GPT3.5 API และคำแนะนำ Llama ที่ปรับแต่งอย่างละเอียดบนพื้นฐานนี้ปรับปรุงผลตอบคำถามของ Llama ในสาขาการแพทย์
- Bianque:
- ที่อยู่: https://github.com/scutcyr/bianque
- บทนำ: รูปแบบการสนทนาทางการแพทย์ที่ปรับแต่งโดยคำแนะนำและบทสนทนาสอบถามหลายรอบ การใช้ Clueai/Chatyuan-Large-V2 เป็นฐานมันใช้คำแนะนำคำถามและตอบคำถามทางการแพทย์ของจีนและชุดข้อมูลผสมของบทสนทนาสอบถามหลายรอบสำหรับการปรับแต่ง
- Soulchat:
- ที่อยู่: https://github.com/scutcyr/soulchat
- บทนำ: Lingxin ใช้ chatglm-6b เป็นรูปแบบการเริ่มต้นและคำแนะนำข้อความยาวของจีนในด้านการให้คำปรึกษาด้านจิตวิทยาและข้อมูลการสนทนาที่เอาใจใส่หลายรอบเพื่อปรับปรุงความสามารถในการเอาใจใส่ของแบบจำลอง
- Doctorglm:
- ที่อยู่: https://github.com/xionghonglin/doctorglm
- บทนำ: รูปแบบการให้คำปรึกษาของจีนตาม chatglm-6b โมเดลนี้ได้รับการปรับแต่งผ่านชุดข้อมูลบทสนทนาทางการแพทย์ของจีนซึ่งตระหนักถึงการปรับแต่งและการปรับใช้อย่างละเอียดรวมถึง LORA, P-TuningV2 ฯลฯ
- Huatuogpt:
- ที่อยู่: https://github.com/freedomintelligence/huatuogpt
- บทนำ: Hua Tuo GPT เป็นแบบจำลองที่คล้ายกับ GPT ที่ได้รับจากการเรียนการสอนทางการแพทย์ของจีนปรับการปรับ/การเรียนการสอนการปรับ (การปรับแต่ง) แบบจำลองนี้เป็น LLM จีนที่ออกแบบมาโดยเฉพาะสำหรับการให้คำปรึกษาทางการแพทย์ ข้อมูลการฝึกอบรมประกอบด้วยข้อมูลที่กลั่นจาก CHATGPT และข้อมูลจริงจากแพทย์ คำติชมจาก RLHF จะถูกเพิ่มเข้ามาในระหว่างกระบวนการฝึกอบรม
- Huatuogpt-II:
- ที่อยู่: https://github.com/freedomintelligence/huatuogpt-ii
- บทนำ: Hua Tuo GPT2 ใช้วิธีการปรับตัวภาคสนามที่เป็นนวัตกรรมการปรับปรุงความรู้ทางการแพทย์และความสามารถในการสนทนาอย่างมาก มันแสดงให้เห็นถึงประสิทธิภาพสูงสุดในการวัดประสิทธิภาพทางการแพทย์ที่หลากหลายโดยเฉพาะอย่างยิ่งเกิน GPT-4 ในการประเมินผู้เชี่ยวชาญและการสอบคุณสมบัติการปฏิบัติทางการแพทย์ใหม่
5.2.3 รูปแบบภาษาการแพทย์ภาษาอังกฤษ
- Gatortron:
- ที่อยู่: https://github.com/uf-hobi-informatics-lab/gatortron
- บทนำ: รูปแบบการจำลองระยะแรกในสาขาการดูแลสุขภาพซึ่งอุทิศให้กับวิธีการที่ระบบที่ใช้กรณีสุขภาพอิเล็กทรอนิกส์ที่ไม่มีโครงสร้างได้รับประโยชน์จากการเยาะเย้ยทางการแพทย์ที่มีพารามิเตอร์หลายพันล้าน
- Codex-Med:
- ที่อยู่: https://github.com/vlievin/medical-reasoning
- บทนำ: อุทิศให้กับความสามารถของโมเดล GPT-3.5 ในการตอบและเหตุผลสำหรับปัญหาทางการแพทย์ที่แท้จริง ชุดข้อมูลการทดสอบทางการแพทย์ USMLE และ MEDMCQA และชุดข้อมูลการอ่านทางการแพทย์ PubMedQa
- Galactica:
- ที่อยู่: https://galactica.org/
- บทนำ: Galactica มุ่งมั่นที่จะแก้ไขข้อมูลที่มากเกินไปในสาขาวิทยาศาสตร์และร้านค้าและรวมความรู้ทางวิทยาศาสตร์รวมถึงสาขาการแพทย์และสุขภาพ Galactica ได้รับการฝึกฝนเกี่ยวกับคลังข้อมูลขนาดใหญ่และการอ้างอิงเพื่อพยายามค้นหาความสัมพันธ์ที่อาจเกิดขึ้นระหว่างการวิจัยในสาขาที่แตกต่างกัน
- deid-gpt:
- ที่อยู่: https://github.com/yhydhx/chatgpt-api
- บทนำ: กรอบการยกเลิกการระบุ GPT4 ที่เป็นนวัตกรรมซึ่งสามารถระบุและลบข้อมูลการระบุได้โดยอัตโนมัติ
- chatdoctor:
- ที่อยู่: https://github.com/kent0n-li/chatdoctor
- บทนำ: รูปแบบการสนทนาทางการแพทย์ที่ได้รับจากการปรับแต่งตาม LLAMA โดยใช้ความรู้พื้นฐานในสาขาการแพทย์
- Medalpaca:
- ที่อยู่: https://github.com/kbreakm/medalpaca
- บทนำ: Medalpaca ใช้กลยุทธ์โอเพ่นซอร์สที่อุทิศให้กับการแก้ปัญหาความเป็นส่วนตัวในระบบการดูแลสุขภาพ แบบจำลองนี้สร้างขึ้นบน Llama ที่มีพารามิเตอร์ 7 พันล้านและ 13 พันล้านพารามิเตอร์
- PMC-llama:
- ที่อยู่: https://github.com/chaoyi-wu/pmc-llama
- บทนำ: PMC-LLAMA เป็นรูปแบบภาษาโอเพ่นซอร์สที่ปลูกฝังความรู้ทางการแพทย์เพิ่มเติมโดยการควบคุม LLAMA-7B ในเอกสารวิชาการชีวการแพทย์ทั้งหมด 4.8 ล้านฉบับเพื่อเพิ่มขีดความสามารถในสาขาการแพทย์
- Visual Med-Alpaca:
- ที่อยู่: https://github.com/cambridgeltl/visual-med-alpaca
- บทนำ: Visual Med-Alpaca เป็นแบบเปิดโอเพ่นซอร์ส, แบบจำลองพื้นฐานทางชีวการแพทย์ที่มีประสิทธิภาพพารามิเตอร์ที่สามารถรวมเข้ากับ "ผู้เชี่ยวชาญด้านการมองเห็น" ของการแพทย์สำหรับงานด้านชีวการแพทย์หลายรูปแบบ แบบจำลองนี้สร้างขึ้นบนสถาปัตยกรรม LLAMA-7B และได้รับการฝึกฝนโดยใช้ชุดคำสั่งที่ดูแลโดย GPT-3.5-turbo และผู้เชี่ยวชาญของมนุษย์
- Gatortrongpt:
- ที่อยู่: https://github.com/uf-hobi-informatics-lab/gatortrongpt
- บทนำ: Gatortrongpt เป็นแบบจำลองภาษาขนาดใหญ่ทางการแพทย์ แบบจำลองนี้สร้างขึ้นบน GPT-3 และมีพารามิเตอร์ 5 พันล้านหรือ 20 พันล้านพารามิเตอร์ แบบจำลองนี้ใช้คลังข้อมูลขนาดใหญ่ของข้อความทางคลินิกและภาษาอังกฤษที่มี 277 พันล้านคำ
- Medagi:
- ที่อยู่: https://github.com/joshuachou2018/medagi
- บทนำ: Medagi ตัวอย่างรวมโมเดลภาษาการแพทย์เฉพาะโดเมนในราคาต่ำสุดเป็นวิธีที่เป็นไปได้ในการใช้ปัญญาประดิษฐ์ทางการแพทย์ทั่วไป
- llava-med:
- ที่อยู่: https://github.com/microsoft/llava-med
- บทนำ: LLAVA-MED ใช้โดเมนทั่วไป LLAVA สำหรับการเริ่มต้นและจากนั้นได้รับการฝึกฝนอย่างต่อเนื่องในลักษณะการเรียนรู้ของหลักสูตร (ครั้งแรกที่มีการจัดแนวแนวคิดทางชีวการแพทย์ตามด้วยการปรับการเรียนการสอนที่ครอบคลุม)
- Med-Flamingo:
- ที่อยู่: https://github.com/snap-stanford/med-flamingo
- บทนำ: Med-Flamingo เป็นรูปแบบภาษาภาพที่ออกแบบมาโดยเฉพาะเพื่อประมวลผลข้อมูลหลายรูปแบบที่มีภาพและข้อความ จากฟลามิงโก Med-Flamingo ช่วยเพิ่มความสามารถในสาขาการแพทย์เหล่านี้โดยการฝึกอบรมแหล่งความรู้หลายรูปแบบที่หลากหลายในสาขาการแพทย์ที่แตกต่างกัน
5.3 การแพทย์ VLM
| แบบอย่าง | กระดาษ | คนอื่น ๆ |
|---|
| เมดซินต์ | การเชื่อมโยง | การเชื่อมโยง |
| Med-Flamingo | การเชื่อมโยง | การเชื่อมโยง |
| llava-med | การเชื่อมโยง | การเชื่อมโยง |
| qilin-med-vl | การเชื่อมโยง | การเชื่อมโยง |
| รัศมี | การเชื่อมโยง | การเชื่อมโยง |
| เมดแอล | การเชื่อมโยง | การเชื่อมโยง |
| Huatuogpt-Vision | การเชื่อมโยง | การเชื่อมโยง |
| biomedgpt | การเชื่อมโยง | การเชื่อมโยง |
| Med-Moe | การเชื่อมโยง | การเชื่อมโยง |
| r-llava | การเชื่อมโยง | - |
| MED-2E3 | การเชื่อมโยง | - |
| GMAI-VL | การเชื่อมโยง | การเชื่อมโยง |
5.4 เกณฑ์มาตรฐาน VLM การแพทย์
| เกณฑ์มาตรฐาน | กระดาษ | คนอื่น ๆ |
|---|
| GMAI-MMBENCH | การเชื่อมโยง | การเชื่อมโยง |
| Omnimedvqa | การเชื่อมโยง | การเชื่อมโยง |
| MMMU | การเชื่อมโยง | การเชื่อมโยง |
| หลายครั้ง | การเชื่อมโยง | การเชื่อมโยง |
| Worldmedqa-V | การเชื่อมโยง | - |
↥กลับไปด้านบน
6. เอกสารที่เกี่ยวข้อง
6.1 เอกสารที่อาจเป็นประโยชน์ในยุคหลัง Chatgpt
รูปแบบภาษาขนาดใหญ่การเข้ารหัสความรู้ทางคลินิกที่อยู่กระดาษ: https://arxiv.org/abs/2212.13138
การแสดงของ Chatgpt เกี่ยวกับ USMLE: ศักยภาพในการศึกษาทางการแพทย์ AI-ASSISTED โดยใช้รูปแบบภาษาขนาดใหญ่ที่อยู่กระดาษ: https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000198
การทดสอบ (ทัวริง) สำหรับที่อยู่กระดาษคำแนะนำทางการแพทย์ของ Chatgpt: https://arxiv.org/abs/2301.10035
Toolformer: โมเดลภาษาสามารถสอนด้วยตัวเองโดยใช้ที่อยู่กระดาษเครื่องมือ: https://arxiv.org/abs/2302.04761
ตรวจสอบข้อเท็จจริงของคุณและลองอีกครั้ง: ปรับปรุงเอกสารแบบจำลองภาษาขนาดใหญ่โดยใช้ความรู้ภายนอกและข้อเสนอแนะอัตโนมัติ: https://arxiv.org/abs/2302.12813
ความสามารถ GPT-4 ในความท้าทายทางการแพทย์ที่อยู่กระดาษ: https://arxiv.org/abs/2303.13375
6.2 บทความภาพรวม
- แบบจำลองภาษาที่ผ่านการฝึกอบรมมาก่อนในสาขาวิทยาศาสตร์ชีวการแพทย์: ที่อยู่กระดาษสำรวจอย่างเป็นระบบ
- บทสรุปของที่อยู่กระดาษของคู่มือการเรียนรู้ด้านการดูแลสุขภาพที่อยู่กระดาษที่อยู่ยาธรรมชาติยาธรรมชาติ
- การทบทวนที่อยู่กระดาษของรูปแบบภาษาขนาดใหญ่ในสาขาการดูแลสุขภาพ
6.3 บทความเฉพาะงาน
บทความที่เกี่ยวข้องกับเวชระเบียนอิเล็กทรอนิกส์
- ถ่ายโอนการเรียนรู้จากวรรณกรรมทางการแพทย์สำหรับการทำนายส่วนในบันทึกสุขภาพอิเล็กทรอนิกส์ที่อยู่กระดาษ
- Mufasa: การค้นหาสถาปัตยกรรมฟิวชั่นหลายรูปแบบสำหรับที่อยู่กระดาษบันทึกสุขภาพอิเล็กทรอนิกส์
การสกัดความสัมพันธ์ทางการแพทย์
- การใช้ประโยชน์จากป่าการพึ่งพาสำหรับการสกัดกระดาษที่สัมพันธ์กับระบบประสาท
กราฟความรู้ทางการแพทย์
- การเรียนรู้กราฟความรู้ด้านสุขภาพจากที่อยู่กระดาษเวชระเบียนอิเล็กทรอนิกส์
การวินิจฉัยเสริม
- การประเมินผลและการวินิจฉัยที่แม่นยำของโรคในเด็กโดยใช้ข่าวกรองศิลปะ
การเชื่อมโยงเอนทิตีทางการแพทย์ (มาตรฐาน)
- การเชื่อมโยงเอนทิตีทางการแพทย์โดยใช้ที่อยู่กระดาษเครือข่าย Triplet
- เฟรมเวิร์กสร้างและจัดอันดับด้วยการทำให้เป็นมาตรฐานประเภทความหมายสำหรับที่อยู่กระดาษการปรับสภาพทางชีวการแพทย์
- แบบจำลองระบบประสาทลึกสำหรับแนวคิดทางการแพทย์การทำให้เป็นมาตรฐานในที่อยู่กระดาษที่ผู้ใช้สร้างขึ้น
6.4 ดัชนีการประชุม
รายการเอกสารที่เกี่ยวข้องในสาขาการแพทย์ใน ACL2020
- เฟรมเวิร์กสร้างและจัดอันดับด้วยการทำให้เป็นมาตรฐานประเภทความหมายสำหรับที่อยู่กระดาษการปรับสภาพทางชีวการแพทย์
- การเป็นตัวแทนของเอนทิตีชีวการแพทย์ที่มีคำพ้องความหมาย
- เอกสารการแปลเทียบกับการแปลแบบสอบถามสำหรับการดึงข้อมูลข้ามภาษาในที่อยู่กระดาษโดเมนทางการแพทย์
- MIE: ตัวดึงข้อมูลทางการแพทย์ที่มีต่อที่อยู่กระดาษบทสนทนาทางการแพทย์
- การทำนายความสัมพันธ์ทางการแพทย์ที่หาเหตุผลเข้าข้างตนเองจากที่อยู่กระดาษระดับคลังข้อมูล
AAAI2020 รายการกระดาษที่เกี่ยวข้องกับ NLP การแพทย์
- เกี่ยวกับการสร้างคำถามตอบคำถามทางการแพทย์ที่อยู่กระดาษ
- ลาเต้: การสร้างแบบจำลองประเภทแฝงสำหรับเอนทิตีทางชีวการแพทย์ที่เชื่อมโยงที่อยู่กระดาษ
- การเรียนรู้แนวคิดการฝังบริบทสำหรับที่อยู่กระดาษข้อความทางการแพทย์
- การทำความเข้าใจการสนทนาทางการแพทย์ด้วยความสนใจคำหลักที่กระจัดกระจายและการกำกับดูแลที่อ่อนแอจากที่อยู่กระดาษคำตอบ
- การเชื่อมโยงเอนทิตีและการสกัดความสัมพันธ์จากข้อความชีวการแพทย์พร้อมกันโดยไม่กล่าวถึงที่อยู่กระดาษการกำกับดูแลระดับ
- ฝังตัวสามารถเป็นตัวแทนของคำศัพท์ทางการแพทย์ได้อย่างเพียงพอหรือไม่? ชุดข้อมูลความคล้ายคลึงกันคำศัพท์ทางการแพทย์ขนาดใหญ่ใหม่มีคำตอบ! ที่อยู่กระดาษ
EMNLP2020 รายการกระดาษที่เกี่ยวข้องกับ NLP การแพทย์
- สู่ความเข้าใจในการอ่านของเครื่องการแพทย์ด้วยความรู้เชิงโครงสร้างและที่อยู่กระดาษธรรมดา
- MedDialog: ชุดข้อมูลการสนทนาทางการแพทย์ขนาดใหญ่ที่อยู่กระดาษ
- Cometa: คลังข้อมูลสำหรับการเชื่อมโยงหน่วยงานการแพทย์ในที่อยู่กระดาษโซเชียลมีเดีย
- การสกัดเหตุการณ์ทางชีวการแพทย์เป็นที่อยู่กระดาษการติดฉลากลำดับ
- FEDED: การเรียนรู้จากสหพันธรัฐผ่านการกลั่นจากวงดนตรีสำหรับการสกัดความสัมพันธ์ทางการแพทย์ที่อยู่กระดาษการวิเคราะห์กระดาษ: Feded: การเรียนรู้แบบสหพันธรัฐสำหรับการสกัดความสัมพันธ์ทางการแพทย์ (ขึ้นอยู่กับการกลั่นฟิวชั่น)
- การผสมผสานความรู้โรคลงในเบิร์ตสำหรับการตอบคำถามสุขภาพการอนุมานทางการแพทย์และที่อยู่กระดาษรับรู้ชื่อโรค
- แบบจำลองการกำเนิดที่ขับเคลื่อนด้วยความรู้สำหรับหลายขั้นตอนการแพทย์ขั้นตอนการแพทย์ของจีน
- Biomegatron: ที่อยู่กระดาษแบบจำลองภาษาโดเมนชีวการแพทย์ขนาดใหญ่ขึ้น
- การสอบถามหลายประเภทสำหรับการเรียกร้องทางการแพทย์ในที่อยู่กระดาษข่าว
↥กลับไปด้านบน
7. ชุดเครื่องมือโอเพ่นซอร์ส
- เครื่องมือพาร์ติชัน Word: PKUSEG ที่อยู่โครงการคำอธิบายโครงการ: เครื่องมือคำนามคำภาษาจีนหลายโดเมนที่เปิดตัวโดย Peking University สนับสนุนการเลือกสาขาการแพทย์
↥กลับไปด้านบน
8. โซลูชั่นผลิตภัณฑ์เกรดอุตสาหกรรม
ภูมิปัญญาเวชศาสตร์จิตวิญญาณ
แพทย์มือซ้าย
การประมวลผลภาษาธรรมชาติของ Yidu Cloud-Medical Medical Hanguage
Baidu - โครงสร้างข้อความทางการแพทย์
Alibaba Cloud - การประมวลผลภาษาธรรมชาติทางการแพทย์
↥กลับไปด้านบน
9. การแบ่งปันบล็อก
- Alpaca: คำสั่งโอเพ่นซอร์สที่ทรงพลังต่อไปนี้รุ่นต่อไปนี้
- บทเรียนที่เรียนรู้จากการสร้างระบบการประมวลผลภาษาธรรมชาติในสาขาการแพทย์
- รู้เบื้องต้นเกี่ยวกับฐานข้อมูลสาธารณะและเทคโนโลยีการขุดข้อมูลในยุคของข้อมูลขนาดใหญ่
- ดูที่การพัฒนาของ NLP ในสาขาการแพทย์จาก ACL 2021 ด้วยการดาวน์โหลดทรัพยากร
↥กลับไปด้านบน
10. ลิงก์ที่เป็นมิตร
- Awesome_chinese_medical_nlp
- การค้นหาชุดข้อมูล NLP ภาษาจีน
- Medical-Data (ข้อมูลที่เกี่ยวข้องกับทางการแพทย์จำนวนมาก)
- ชุดข้อมูล Tianchi (รวมถึงชุดข้อมูล NLP ทางการแพทย์หลายชุด)
↥กลับไปด้านบน
11. การอ้างอิง
@misc { medical_NLP_github ,
author = { Xidong Wang, Ziyue Lin and Jing Tang, Rongsheng Wang, Benyou Wang } ,
title = { Medical NLP } ,
year = { 2023 } ,
publisher = { GitHub } ,
journal = { GitHub repository } ,
howpublished = { url{https://github.com/FreedomIntelligence/Medical_NLP} }
}