
วิธีการแยกข้อมูลจากข้อมูลและข้อความทางชีวการแพทย์ที่ไม่มีโครงสร้าง
Bioie คืออะไร? มันรวมถึงความพยายามใด ๆ ในการดึงข้อมูลที่มีโครงสร้างจาก โครงสร้างที่ไม่มีโครงสร้าง (หรืออย่างน้อยโครงสร้างที่ไม่สอดคล้องกัน) ข้อมูลทางชีวภาพคลินิกหรือข้อมูลชีวการแพทย์อื่น ๆ แหล่งข้อมูลมักจะรวบรวมเอกสารข้อความที่เขียนด้วยภาษาเทคนิค หากข้อมูลที่ได้นั้นสามารถตรวจสอบได้และสอดคล้องกันในแหล่งข้อมูลเราอาจพิจารณา ความรู้ด้าน ไอที การแยกข้อมูลและการสร้างความรู้จากข้อมูลชีวภาพต้องมีการปรับตัวตามวิธีการที่พัฒนาขึ้นสำหรับข้อมูลที่ไม่มีโครงสร้างประเภทอื่น
Bioie ได้รับการเปลี่ยนแปลงครั้งใหญ่นับตั้งแต่การเปิดตัวโมเดลภาษาเช่น Bert และรุ่นภาษาขนาดใหญ่ที่เพิ่งสร้างขึ้นเมื่อเร็ว ๆ นี้ (LLMS; เช่น GPT-3/4, LLAMA2/3, ราศีเมถุน ฯลฯ )
ทรัพยากรที่รวมอยู่ที่นี่เป็นสิ่งที่ดีกว่าที่ไม่มีค่าใช้จ่ายทางการเงินและข้อกำหนดใบอนุญาต จำกัด วิธีการและชุดข้อมูลควรเข้าถึงได้สาธารณะและบำรุงรักษาอย่างแข็งขัน
ดูเพิ่มเติมที่น่ากลัว-NLP, ชีววิทยาที่ยอดเยี่ยมและชีวสารสนเทศที่ยอดเยี่ยม
โปรดอ่านแนวทางการบริจาคก่อนที่จะมีส่วนร่วม โปรดเพิ่มทรัพยากรที่คุณชื่นชอบโดยเพิ่มคำขอดึง
สารบัญ
- ภาพรวมการวิจัย
- กลุ่มที่ใช้งานอยู่ในสนาม
- องค์กร
- วารสารและกิจกรรมต่างๆ
- วารสาร
- การประชุมและกิจกรรมอื่น ๆ
- ความท้าทาย
- บทเรียน
- คำแนะนำ
- การบรรยายวิดีโอและหลักสูตรออนไลน์
- รหัสห้องสมุด
- repos สำหรับชุดข้อมูลเฉพาะ
- เครื่องมือแพลตฟอร์มและบริการ
- เทคนิคและโมเดล
- ชุดข้อมูล
- แหล่งข้อความชีวการแพทย์
- ข้อมูลข้อความอธิบายประกอบ
- ปฏิสัมพันธ์โปรตีนโปรตีนหมายเหตุประกอบ Corpora
- ชุดข้อมูลอื่น ๆ
- ontologies และคำศัพท์ที่ควบคุม
- แบบจำลองข้อมูล
- การให้เครดิต
ภาพรวมการวิจัย
LLMs ในชีวการแพทย์เช่น
- แบบจำลองภาษาขนาดใหญ่ในการดูแลสุขภาพ: มาตรฐานที่ครอบคลุม - การประเมินทางสถิติและมนุษย์ของ LLM ที่แตกต่างกันสิบหก LLM ที่ใช้กับงานภาษาทางการแพทย์
- การประเมินภูมิทัศน์การวิจัยและยูทิลิตี้ทางคลินิกของแบบจำลองภาษาขนาดใหญ่: การทบทวนการกำหนดขอบเขต - การทบทวนระดับสูงของแอปพลิเคชัน LLM ในการแพทย์ ณ เดือนมีนาคม 2567
- ความท้าทายด้านจริยธรรมและกฎระเบียบของแบบจำลองภาษาขนาดใหญ่ในการแพทย์ - การทบทวนประเด็นทางจริยธรรมที่เกิดขึ้นจากการประยุกต์ใช้ LLMs ในชีวการแพทย์
- เกี่ยวกับอันตรายของนกแก้วสุ่ม: โมเดลภาษาจะใหญ่เกินไปได้หรือไม่? - - งานที่อ้างอิงบ่อย แต่ยังคงเกี่ยวข้องกับบทบาทแอปพลิเคชันและความเสี่ยงของแบบจำลองภาษา
ภาพรวม pre-llm
- สารสนเทศด้านชีวการแพทย์บนคลาวด์: การล่าขุมทรัพย์สำหรับการแพทย์หัวใจและหลอดเลือดที่ก้าวหน้า - ภาพรวมของวิธีการทำงานทางชีวภาพและชีวสารสนเทศศาสตร์สามารถนำไปใช้กับคำถามในการวิจัยสุขภาพหัวใจและหลอดเลือดและการแพทย์
- แอปพลิเคชันการสกัดข้อมูลทางคลินิก: การทบทวนวรรณกรรม - การทบทวนเอกสาร IE IE ที่ตีพิมพ์เมื่อเดือนกันยายน 2559 จาก Mayo Clinic Group (ดูด้านล่าง)
- การค้นพบที่ใช้วรรณกรรม: แบบจำลองวิธีการและแนวโน้ม - การทบทวนการค้นพบที่ใช้วรรณกรรม (LBD) หรือปรัชญาที่การเชื่อมต่อที่มีความหมายอาจพบได้ระหว่างวรรณกรรมทางวิทยาศาสตร์ที่ไม่เกี่ยวข้อง
- สำหรับบริบททางประวัติศาสตร์บางอย่างเกี่ยวกับ LBD ดูเอกสารโดย Don Swanson และ Neil Smalheiser ของ University of Chicago รวมถึง ความรู้สาธารณะที่ยังไม่ได้ค้นพบ (Paywalled) และ ค้นพบ Don Swanson: อดีตปัจจุบันและอนาคตของการค้นพบวรรณกรรม
- การขุดบันทึกสุขภาพอิเล็กทรอนิกส์ (EHRS): การสำรวจ - การทบทวนวิธีการและปรัชญาที่อยู่เบื้องหลังการขุดบันทึกสุขภาพอิเล็กทรอนิกส์รวมถึงการใช้พวกเขาสำหรับการตรวจจับเหตุการณ์ไม่พึงประสงค์ ดูตารางที่ 2 สำหรับรายการเอกสารที่เกี่ยวข้องในช่วงกลางปี 2017
- การจับมุมมองของผู้ป่วย: การทบทวนความก้าวหน้าในการประมวลผลภาษาธรรมชาติของข้อความที่เกี่ยวข้องกับสุขภาพ - การทบทวนวิธีการประมวลผลภาษาธรรมชาติในปี 2560 ที่ใช้กับการสกัดข้อมูลในบันทึกสุขภาพและข้อความโซเชียลมีเดีย หมายเหตุสำคัญจากการตรวจสอบนี้: "หนึ่งในความท้าทายหลักในสาขาคือความพร้อมใช้งานของข้อมูลที่สามารถแบ่งปันได้และชุมชนสามารถใช้เพื่อผลักดันการพัฒนาวิธีการตามการศึกษาที่เทียบเคียงและทำซ้ำได้"
กลับไปด้านบน
กลุ่มที่ใช้งานอยู่ในสนาม
- ห้องปฏิบัติการแปรรูปภาษาธรรมชาติของโรงพยาบาลเด็กบอสตันนำโดยดร. Guergana Savova เดิมที่ Mayo Clinic และโครงการ Apache Ctakes
- ศูนย์ข้อมูลชีวการแพทย์ Brown ซึ่งตั้งอยู่ที่ Brown University และกำกับโดย Dr. Neil Sarkar ซึ่งกลุ่มวิจัยทำงานในหัวข้อในคลินิก NLP และ IE
- ศูนย์เภสัชวิทยาการคำนวณ NLP Group ซึ่งตั้งอยู่ที่ University of Colorado, Denver และนำโดย Larry Hunter - ดู Repos GitHub ของพวกเขาที่นี่
- กลุ่มที่สถาบันสุขภาพแห่งชาติของสหรัฐอเมริกา (NIH) / หอสมุดแห่งชาติแห่งชาติ (NLM):
- Demner-Fushman Group ที่ NLM
- กลุ่ม Bionlp ที่ NCBI - พัฒนาการปรับปรุงการค้นหาและการดูแลวรรณกรรมทางชีวการแพทย์ (เช่นผ่าน PubMed) นำโดยดร. Zhiyong Lu
- Jensenlab - ตั้งอยู่ที่ Novo Nordisk Foundation Foundation เพื่อการวิจัยโปรตีนที่มหาวิทยาลัยโคเปนเฮเกนประเทศเดนมาร์ก
- ศูนย์การขุดข้อความแห่งชาติ (NACTEM) - ตั้งอยู่ที่มหาวิทยาลัยแมนเชสเตอร์และนำโดยศาสตราจารย์โซเฟียอานาธิว Nactem เกี่ยวข้องกับการขุดข้อความโดยทั่วไป แต่มีความสำคัญเป็นพิเศษในการใช้งานด้านชีวการแพทย์
- โปรแกรมการประมวลผลภาษาธรรมชาติทางคลินิกของ Mayo Clinic - หลายกลุ่มที่ Mayo Clinic ได้มีส่วนร่วมอย่างมากต่อ Bioie (ตัวอย่างเช่นแพลตฟอร์ม Apache Ctakes) ในช่วง 20 ปีที่ผ่านมา
- Monarch Initiative - ความพยายามร่วมกันระหว่างกลุ่มที่ Oregon State University, Oregon Health & Science University, Lawrence Berkeley National Lab, Jackson Laboratory และอื่น ๆ อีกหลายแห่งพยายามที่จะ "บูรณาการข้อมูลทางชีวภาพโดยใช้ความหมายและนำเสนอในรูปแบบใหม่
- Turkunlp - ตั้งอยู่ที่ University of Turku และเกี่ยวข้องกับ NLP โดยทั่วไปโดยมุ่งเน้นไปที่ BIONLP และการใช้งานทางคลินิก
- ห้องปฏิบัติการประมวลผลภาษาธรรมชาติทางชีวการแพทย์ Uthealth Houston ซึ่งตั้งอยู่ในศูนย์วิทยาศาสตร์สุขภาพมหาวิทยาลัยเท็กซัสที่ฮุสตันโรงเรียนสารสนเทศชีวการแพทย์และนำโดยดร. ฮัว Xu
- ห้องปฏิบัติการประมวลผลภาษาธรรมชาติ VCU ซึ่งตั้งอยู่ที่มหาวิทยาลัยเวอร์จิเนียคอมมอนเวลธ์และนำโดยดร. บริดเก็ตแมคอินเนส
- ZAKLAB - กลุ่มนำโดยดร. ไอแซคโคฮานที่แผนกสารสนเทศชีวการแพทย์ของโรงเรียนแพทย์ฮาร์วาร์ด (ดร. โคฮานยังเป็นผู้ดูแลชุดข้อมูล N2C2 (เดิมคือ I2B2) - ดูชุดข้อมูลด้านล่าง)
- ภาควิชาสารสนเทศด้านชีวการแพทย์ของมหาวิทยาลัยโคลัมเบีย - นำโดย Drs George Hripcsak และNoémie Elhadad
กลับไปด้านบน
องค์กร
- อาเมีย - หลายคน - แต่ไม่ใช่ทั้งหมด - บุคคลที่ศึกษาสารสนเทศชีวการแพทย์เป็นสมาชิกของสมาคมสารสนเทศทางการแพทย์อเมริกัน Amia ตีพิมพ์วารสาร Jamia (ดูด้านล่าง)
- IMIA - สมาคมสารสนเทศทางการแพทย์ระหว่างประเทศ เผยแพร่ข้อมูลประจำปีของ IMIA ของสารสนเทศทางการแพทย์
กลับไปด้านบน
วารสารและกิจกรรมต่างๆ
ลักษณะสหวิทยาการของ Bioie หมายถึงนักวิจัยในพื้นที่นี้อาจแบ่งปันผลการวิจัยและเครื่องมือของพวกเขาในหลากหลายวิธี พวกเขาอาจตีพิมพ์เอกสารในวารสารเช่นเดียวกับวิทยาศาสตร์ชีวการแพทย์และวิทยาศาสตร์เพื่อชีวิต พวกเขาอาจเผยแพร่เอกสารการประชุมและเมื่อได้รับการยอมรับให้โปสเตอร์และ/หรือการนำเสนอด้วยวาจาในงาน; นี่เป็นเรื่องธรรมดาในสาขาวิทยาศาสตร์คอมพิวเตอร์และสาขาวิศวกรรม เอกสารการประชุมมักจะตีพิมพ์ในคอลเล็กชั่นการดำเนินการ Preprint Publication เป็นวิธีที่ได้รับความนิยมมากขึ้นและได้รับการยอมรับอย่างมากในการเผยแพร่ผลการวิจัยเช่นกัน โดยรอบผลิตภัณฑ์ที่เป็นทางการที่เป็นลายลักษณ์อักษรเหล่านี้เป็นแนวคิดของวิทยาศาสตร์แบบเปิดข้อมูลแบบเปิดและโอเพ่นซอร์ส: รหัสข้อมูลและนักวิจัยซอฟต์แวร์ Bioie พัฒนาเป็นทรัพยากรที่มีค่าสำหรับชุมชน
วารสาร
สำหรับ preprints ลอง arxiv โดยเฉพาะอย่างยิ่งการคำนวณวิชาและภาษา (CS.CL) และการดึงข้อมูล (CS.IR); Biorxiv; หรือ Medrxiv โดยเฉพาะสาขาวิชาข้อมูลด้านสุขภาพ
- ฐานข้อมูล - คำบรรยายคือ "วารสารฐานข้อมูลและการดูแล" เปิดการเข้าถึง
- NAR - การวิจัยกรดนิวคลีอิก มีการมุ่งเน้นทางชีวโมเลกุลในวงกว้าง แต่มีความโดดเด่นเป็นพิเศษสำหรับปัญหาฐานข้อมูลประจำปี
- Jamia - วารสารสมาคมสารสนเทศทางการแพทย์อเมริกัน ข้อกังวล "บทความในด้านการดูแลทางคลินิกการวิจัยทางคลินิกวิทยาศาสตร์การแปลวิทยาศาสตร์การนำไปใช้การถ่ายภาพการศึกษาสุขภาพผู้บริโภคสาธารณสุขและนโยบาย"
- JBI - วารสารสารสนเทศชีวการแพทย์ ไม่เปิดการเข้าถึงตามค่าเริ่มต้นแม้ว่าจะมีเวอร์ชัน "X" แบบเปิด
- ข้อมูลทางวิทยาศาสตร์ - การเผยแพร่วารสาร Nature Journal เปิด "คำอธิบายของชุดข้อมูลที่มีค่าทางวิทยาศาสตร์และการวิจัยที่ก้าวหน้าการแบ่งปันและนำข้อมูลทางวิทยาศาสตร์กลับมาใช้ใหม่"
การประชุมและกิจกรรมอื่น ๆ
- ACM -BCB - การประชุม ACM เกี่ยวกับชีวสารสนเทศศาสตร์ชีววิทยาการคำนวณและสารสนเทศด้านสุขภาพ จัดขึ้นเป็นประจำทุกปีตั้งแต่ปี 2010
- BIBM - การประชุมนานาชาติ IEEE เรื่องชีวสารสนเทศศาสตร์และชีวการแพทย์
- ISMB - การประชุมนานาชาติเกี่ยวกับระบบอัจฉริยะสำหรับชีววิทยาโมเลกุลเป็นการประชุมประจำปีที่จัดทำโดยสมาคมระหว่างประเทศเพื่อการคำนวณชีววิทยาตั้งแต่ปี 1993 การมุ่งเน้นส่วนใหญ่เกี่ยวข้องกับชีวสารสนเทศศาสตร์และชีววิทยาการคำนวณโดยไม่ต้องมุ่งเน้นทางคลินิกอย่างชัดเจน การประชุมรวมกับการประชุมยุโรปเกี่ยวกับชีววิทยาการคำนวณ (ECCB) ในปีที่มีเลขคี่
- PSB - การประชุมวิชาการแปซิฟิกเกี่ยวกับการคำนวณทางชีวภาพ
ความท้าทาย
เหตุการณ์บางอย่างใน Bioie ได้รับการจัดระเบียบเกี่ยวกับงานและความท้าทายที่เป็นทางการซึ่งกลุ่มพัฒนาโซลูชันการคำนวณของตนเองตามชุดข้อมูล
- BioAsq - ความท้าทายในการจัดทำดัชนีความหมายทางชีวการแพทย์และการตอบคำถาม ความท้าทายและการประชุมเชิงปฏิบัติการจัดขึ้นเป็นประจำทุกปีตั้งแต่ปี 2013
- การประชุมเชิงปฏิบัติการ Biocreative - การประชุมเชิงปฏิบัติการเหล่านี้ได้รับการจัดระเบียบตั้งแต่ปี 2547 โดยมี Biocreative VI เกิดขึ้นกุมภาพันธ์ 2017 และ Biocreative/OHNLP Challenge ที่จัดขึ้นในปี 2018 ดูชุดข้อมูลด้านล่าง
- Semeval Workshop - งานและการประเมินผลในการวิเคราะห์ความหมายเชิงคำนวณ งานแตกต่างกันไปตามปี แต่มักครอบคลุมภาษาทางวิทยาศาสตร์และ/หรือชีวการแพทย์เช่นงาน Semeval-2019 ภารกิจ 12 เกี่ยวกับการแก้ปัญหา toponym ในเอกสารทางวิทยาศาสตร์
- EHealth -KD - ความท้าทายในการส่งเสริม "การพัฒนาเทคโนโลยีซอฟต์แวร์เพื่อแยกความรู้ที่หลากหลายจากเอกสาร eHealth โดยอัตโนมัติที่เขียนด้วยภาษาสเปน" ก่อนหน้านี้จัดขึ้นเป็นส่วนหนึ่งของ TASS การประชุมเชิงปฏิบัติการประจำปีสำหรับการวิเคราะห์ความหมายในภาษาสเปน
- EHR Dream Challenge - จัดขึ้นพร้อมกับความท้าทายที่มุ่งเน้นทางชีวสารสนเทศอื่น ๆ อีกมากมายความท้าทายนี้เปิดในเดือนตุลาคม 2562 และมุ่งเน้นไปที่การใช้ข้อมูลบันทึกสุขภาพอิเล็กทรอนิกส์เพื่อทำนายการเสียชีวิตของผู้ป่วย ใช้ชุดข้อมูลสังเคราะห์แทนที่จะเป็นเนื้อหา EHR จริง
กลับไปด้านบน
บทเรียน
สนามเปลี่ยนแปลงอย่างรวดเร็วเพียงพอที่การสอนที่เก่ากว่าสองสามปีจะขาดรายละเอียดที่สำคัญ ทรัพยากรการศึกษาล่าสุดอีกสองสามรายการอยู่ด้านล่าง ความเข้าใจพื้นฐานที่ดีของเทคนิคการขุดข้อความมีประโยชน์มากเช่นเดียวกับประสบการณ์พื้นฐานกับภาษา Python และหรือ R ตัวเลือกที่ดีที่สุดคือการเรียนรู้ด้วยการทำ
คู่มือ LLM
TBD - ดูพื้นที่นี้!
คู่มือ Pre-llm การบรรยายและหลักสูตร
- เริ่มต้นใช้งานการขุดข้อความ - การแนะนำสั้น ๆ เกี่ยวกับการขุดข้อความทางชีวภาพจากโคเฮนและฮันเตอร์ อายุมากกว่าสิบปี แต่ก็ยังค่อนข้างเกี่ยวข้อง ดูเอกสารก่อนหน้านี้โดยผู้เขียนคนเดียวกัน
- การขุดวรรณกรรมชีวการแพทย์ - ปริมาณ (ไม่ฟรี) ของวิธีการในชีววิทยาโมเลกุลจากปี 2014 บทครอบคลุมหลักการเบื้องต้นในการขุดข้อความการใช้งานในวิทยาศาสตร์ชีวภาพและศักยภาพสำหรับการใช้งานในสถานการณ์ทางคลินิกหรือความปลอดภัยทางการแพทย์
- Coursera - รากฐานของการขุดข้อมูลทางการแพทย์ที่ไม่มีโครงสร้าง - ประมาณสามชั่วโมงของการบรรยายวิดีโอเกี่ยวกับการทำงานกับข้อมูลทางการแพทย์ประเภทและโครงสร้างต่าง ๆ รวมถึงข้อมูลข้อความและภาพ ปรากฏว่าค่อนข้างสูงและมีไว้สำหรับผู้เริ่มต้น
- แบบฝึกหัดการขุดข้อความ Jensenlab
- การฝึกอบรมการขุดและการฝึกอบรมการฝึกอบรม VIB - การฝึกอบรมการฝึกอบรมนี้เกิดขึ้นในปี 2556 แต่สไลด์ยังออนไลน์อยู่
กลับไปด้านบน
รหัสห้องสมุด
- Biopython - Paper - Code - เครื่องมือ Python ที่มีวัตถุประสงค์หลักสำหรับวัตถุประสงค์ทางชีวสารสนเทศศาสตร์และวัตถุประสงค์ทางชีววิทยาโมเลกุลคำนวณ แต่ยังเป็นวิธีที่สะดวกในการรับข้อมูลรวมถึงเอกสาร/บทคัดย่อจาก PubMed (ดูบทที่ 9 ของเอกสาร)
- คะแนนไบโอ - กระดาษ - กรอบสำหรับความละเอียด coreference ชีวการแพทย์
- Medacy - ระบบสำหรับการสร้างแบบจำลองการประมวลผลภาษาธรรมชาติการแพทย์ที่คาดการณ์ได้ สร้างขึ้นบนกรอบการทำงาน
- Scispacy - Paper - เวอร์ชันของเฟรมเวิร์ก Spacy สำหรับเอกสารทางวิทยาศาสตร์และชีวการแพทย์
- Rentrez - R ระบบสาธารณูปโภคสำหรับการเข้าถึงทรัพยากร NCBI รวมถึง PubMed
- MED7 - Paper - Code - แพ็คเกจ Python และรุ่น (สำหรับใช้กับ Spacy) สำหรับการทำ NER กับแนวคิดที่เกี่ยวข้องกับยา
repos สำหรับชุดข้อมูลเฉพาะ
- Mimic-Code-รหัสที่เกี่ยวข้องกับชุดข้อมูล MIMIC-III (ดูด้านล่าง) รวมถึงบทเรียนที่เป็นประโยชน์
กลับไปด้านบน
เครื่องมือแพลตฟอร์มและบริการ
- CTAKE - PAPER - CODE - ระบบสำหรับการประมวลผลข้อความในเวชระเบียนอิเล็กทรอนิกส์ ใช้กันอย่างแพร่หลายและโอเพ่นซอร์ส
- แคลมป์ - กระดาษ - ชุดเครื่องมือประมวลผลภาษาธรรมชาติมีไว้สำหรับใช้กับข้อความในรายงานทางคลินิก ตรวจสอบการสาธิตสดของพวกเขาก่อนเพื่อดูว่ามันทำอะไร ใช้งานได้โดยไม่มีค่าใช้จ่ายสำหรับการวิจัยเชิงวิชาการ
- Deepphe - ระบบสำหรับการประมวลผลเอกสารที่อธิบายการนำเสนอมะเร็ง ขึ้นอยู่กับ ctakes (ดูด้านบน)
- DNORM - PAPER - วิธีการทำให้เป็นปกติของโรคคือการเชื่อมโยงการกล่าวถึงชื่อโรคและคำย่อกับตัวระบุแนวคิดที่ไม่ซ้ำกัน เวอร์ชันที่ดาวน์โหลดได้รวมถึง NCBI Disease Corpus และ BC5CDR (ดูข้อมูลข้อความด้านล่าง)
- Pubtator Central - กระดาษ - แพลตฟอร์มเว็บที่ระบุแนวคิดทางชีวการแพทย์ห้าประเภทในบทความ PubMed และ PubMed Central Full Texts ชุดคำอธิบายประกอบแบบเต็มสามารถดาวน์โหลดได้ (ดูข้อมูลข้อความหมายเหตุประกอบด้านล่าง)
- PubRunner - กรอบการทำงานสำหรับใช้เครื่องมือขุดข้อความในชุดใหม่ล่าสุดของเอกสารจาก PubMed
- Semehr - Paper - โครงสร้างพื้นฐาน IE สำหรับบันทึกสุขภาพอิเล็กทรอนิกส์ (EHR) สร้างขึ้นบนโครงการ Cogstack
- Taggerone - Paper - ดำเนินการตามแนวคิด (ดู DNORM ด้านบนด้วย) สามารถได้รับการฝึกฝนสำหรับประเภทแนวคิดเฉพาะและสามารถดำเนินการเป็นอิสระจากฟังก์ชั่นการทำให้เป็นมาตรฐานอื่น ๆ
- Tabinout - กระดาษ - กรอบการทำงานสำหรับ IE จากตารางในวรรณคดี
เครื่องมือคำอธิบายประกอบ
- Anafora - Paper - เครื่องมือคำอธิบายประกอบที่มีคุณสมบัติการตัดสินและการติดตามความคืบหน้า
- BRAT - PAPER - CODE - เครื่องมือคำอธิบายประกอบอย่างรวดเร็วของ BRAT รองรับการผลิตคำอธิบายประกอบข้อความผ่านเบราว์เซอร์ ไม่เฉพาะเรื่อง เหมาะสำหรับโครงการคำอธิบายประกอบจำนวนมาก การสร้างภาพขึ้นอยู่กับเครื่องมือ STAV
- Medtator - Paper - Code - เครื่องมือคำอธิบายประกอบที่ออกแบบมาเพื่อให้มีการพึ่งพาน้อยที่สุด
กลับไปด้านบน
เทคนิคและโมเดล
รูปแบบภาษาขนาดใหญ่
TBD - ดูพื้นที่นี้!
รุ่นเบิร์ต
- Biobert - Paper - Code - PubMed และ PubMed รุ่นที่ผ่านการฝึกอบรมกลางของรุ่น Bert Language
- Clinicalbert - แบบจำลองภาษาสองแบบที่ได้รับการฝึกฝนเกี่ยวกับข้อความทางคลินิกมีชื่อที่คล้ายกัน ทั้งสองเป็นแบบจำลอง Bert ที่ได้รับการฝึกฝนเกี่ยวกับข้อความของบันทึกทางคลินิกจากชุดข้อมูล MIMIC-III
- Alsentzer et al Bert - Paper
- Huang et al Clinicalbert - กระดาษ
- Scibert - Paper - แบบจำลอง Bert ที่ได้รับการฝึกฝนบน> 1M เอกสารจากฐานข้อมูล Semantic Scholar
- BLUBERT - PAPER - แบบจำลอง BERT ที่ได้รับการฝึกอบรมล่วงหน้าบนข้อความ PubMed และ Note Mimic -III
- PubMedbert - Paper - แบบจำลอง Bert ที่ได้รับการฝึกฝนมาตั้งแต่เริ่มต้นบน PubMed โดยมีรุ่นที่ได้รับการฝึกฝนเกี่ยวกับบทคัดย่อ+ข้อความเต็มและบทคัดย่อเพียงอย่างเดียว
รุ่น GPT-2
- Biogpt-Paper-รุ่น GPT-2 ที่ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับบทคัดย่อ PubMed 15 ล้านตัวพร้อมกับรุ่นที่ปรับแต่งสำหรับงานด้านชีวการแพทย์หลายอย่าง
รุ่นอื่น ๆ
- Flair Embeddings จาก PubMed - แบบจำลองภาษาที่มีให้ผ่านกรอบ Flair และวิธีการฝัง ได้รับการฝึกฝนมากกว่าตัวอย่างบทคัดย่อ PubMed 5% จนถึงปี 2015 หรือ> 1.2 ล้านบทคัดย่อทั้งหมด
การฝังข้อความ
- บทความนี้จากกลุ่มของ Hongfang Liu ที่ Mayo Clinic แสดงให้เห็นว่าการฝังข้อความที่ผ่านการฝึกอบรมเกี่ยวกับข้อความทางชีวการแพทย์หรือทางคลินิกสามารถทำได้อย่างไร แต่ไม่ได้ทำงานได้ดีขึ้นในงานการประมวลผลภาษาธรรมชาติชีวการแพทย์ ที่ถูกกล่าวว่าการฝังตัวที่ผ่านการฝึกอบรมมาแล้วอาจเหมาะสมกับความต้องการของคุณโดยเฉพาะอย่างยิ่งเมื่อการฝังเฉพาะโดเมนการฝึกอบรมสามารถคำนวณได้อย่างเข้มข้น
- BioAsQword2vec - Paper - Qord Embeddings ที่ได้มาจากข้อความทางชีวการแพทย์ (> 10 ล้าน PubMed Abstracts) โดยใช้เครื่องมือ Word2vec ยอดนิยม
- Biowordvec - Paper - Code - Word Embeddings ที่ได้มาจากข้อความทางชีวการแพทย์ (> 27 ล้านชื่อ PubMed และบทคัดย่อ) รวมถึงรูปแบบการฝังคำย่อยตามตาข่าย
กลับไปด้านบน
ชุดข้อมูล
ชุดข้อมูลบางชุดที่แสดงด้านล่างต้องใช้บัญชี UMLS Terminology Services (UTS) เพื่อเข้าถึง โปรดทราบว่าใบอนุญาตที่ได้รับจากบัญชี UTS กำหนดให้ผู้ใช้ต้องส่งรายงานประจำปีเกี่ยวกับการใช้ทรัพยากร UMLS สิ่งนี้ท้าทายน้อยกว่าที่ฟัง
แหล่งข้อความชีวการแพทย์
ทรัพยากรต่อไปนี้มีเอกสารข้อความที่จัดทำดัชนีในวิทยาศาสตร์ชีวการแพทย์
- OHSUMED - PAPER - 348,566 รายการ MEDLINE (ชื่อเรื่องและบางครั้งเป็นนามธรรม) ระหว่างปี 1987 และ 1991 รวมถึงฉลากตาข่าย ส่วนใหญ่มีความสำคัญทางประวัติศาสตร์
- PubMed Central Open Access Subset - ชุดของบทความกลาง PubMed ที่ใช้งานได้ภายใต้ใบอนุญาตนอกเหนือจากลิขสิทธิ์แบบดั้งเดิมแม้ว่าใบอนุญาตที่แน่นอนจะแตกต่างกันไปตามการตีพิมพ์และแหล่งที่มา บทความมีให้บริการเป็น PDF และ XML
- CORD-19-คลังข้อมูลของต้นฉบับทางวิชาการที่เกี่ยวข้องกับ COVID-19 บทความส่วนใหญ่มาจากเซิร์ฟเวอร์ PubMed Central และ Preprint แม้ว่าชุดนี้ยังรวมถึงข้อมูลเมตาบนเอกสารที่ไม่มีความพร้อมใช้งานแบบเต็มข้อความ
ข้อมูลข้อความอธิบายประกอบ
- SPL-ADR-200DB-กระดาษ-ชุดข้อมูลนำร่องที่มีข้อมูลมาตรฐานและคำอธิบายประกอบของการเกิดขึ้นในข้อความประมาณ 5,000 อาการไม่พึงประสงค์ที่รู้จักสำหรับยาที่ได้รับการรับรองจาก FDA 200 รายการ
- Biocreative 1 - กระดาษ - 15,000 ประโยค (10,000 การฝึกอบรมและการทดสอบ 5,000 ครั้ง) คำอธิบายประกอบสำหรับชื่อโปรตีนและยีน 1,000 บทความการวิจัยทางชีวการแพทย์ข้อความเต็มรูปแบบที่มีชื่อโปรตีนและข้อกำหนดของยีนอภิปรัชญา
- Biocreative 2 - กระดาษ - 15,000 ประโยค (10,000 การฝึกอบรมและการทดสอบ 5,000 ครั้งแตกต่างจากคลังข้อมูลแรก) ใส่คำอธิบายประกอบสำหรับชื่อโปรตีนและยีน 542 บทคัดย่อเชื่อมโยงกับตัวระบุ Entrezgene บทความวิจัยที่หลากหลายมีหมายเหตุประกอบสำหรับคุณสมบัติของการปฏิสัมพันธ์ระหว่างโปรตีน - โปรตีน
- Biocreative V CDR Task Corpus (BC5CDR) - กระดาษ - 1,500 บทความ (ชื่อเรื่องและบทคัดย่อ) ที่ตีพิมพ์ในปี 2014 หรือใหม่กว่านั้นมีคำอธิบายประกอบสำหรับสารเคมี 4,409 ชนิด, 5,818 โรคและสารเคมี - 3116 ต้องมีการลงทะเบียน
- Biocreative VI Chemprot Corpus - กระดาษ -> 2,400 บทความที่มีคำอธิบายประกอบกับปฏิสัมพันธ์ระหว่างโปรตีนเคมีของประเภทความสัมพันธ์ที่หลากหลาย ต้องมีการลงทะเบียน
- Craft - Paper - 67 บทความทางชีวการแพทย์แบบเต็มข้อความที่มีคำอธิบายประกอบในหลากหลายวิธีรวมถึงแนวคิดและ coreferences ตอนนี้ในเวอร์ชัน 5 รวมถึงคำอธิบายประกอบการเชื่อมโยงแนวคิดกับ Ontology โรค Mondo
- ข้อมูล N2C2 (เดิมคือ I2B2) - กรมสารสนเทศด้านชีวการแพทย์ (DBMI) ที่โรงเรียนแพทย์ฮาร์วาร์ดจัดการข้อมูลสำหรับความท้าทายทางคลินิก NLP แห่งชาติและสารสนเทศเพื่อบูรณาการชีววิทยาและความท้าทายด้านเตียงที่ดำเนินการมาตั้งแต่ปี 2549 ชุดข้อมูลรวมถึงหัวข้อที่หลากหลาย ดูรายการความท้าทายข้อมูลสำหรับคำอธิบายส่วนบุคคล
- Corpus โรค NCBI - กระดาษ - คลังข้อมูลของบทคัดย่อชีวการแพทย์ 793 คำอธิบายประกอบด้วยชื่อของโรคและแนวคิดที่เกี่ยวข้องจาก Mesh และ Omim
- ชุดข้อมูล Central Pubtator - กระดาษ - สามารถเข้าถึงได้ผ่านการดาวน์โหลด API หรือ FTP รวมถึงคำอธิบายประกอบสำหรับบทคัดย่อ> 29 ล้านบทและเอกสารข้อความเต็ม ∼3 ล้านฉบับ
- Word Sense Disambiguation (WSD) - กระดาษ - 203 คำที่คลุมเครือและ 37,888 สกัดอินสแตนซ์ของการใช้งานโดยอัตโนมัติในสิ่งพิมพ์การวิจัยทางชีวการแพทย์ ต้องใช้บัญชี UTS
- การรวบรวมคำถามทางคลินิก - หรือที่เรียกว่า CQC หรือคอลเลกชันไอโอวาเหล่านี้เป็นคำถามหลายพันคำถามที่แพทย์โพสต์ระหว่างการเยี่ยมชมสำนักงานพร้อมกับคำตอบที่เกี่ยวข้อง
- ชุดข้อมูล Bionlp ST 2013 - ข้อมูลจากงานที่ใช้ร่วมกันหกงานแม้ว่าบางส่วนอาจไม่สามารถเข้าถึงได้ง่าย ลองชุดงาน CG (BIONLP2013CG) สำหรับนิวเคลียสและคำอธิบายประกอบเหตุการณ์ที่กว้างขวาง
- Bioscope - Paper - คลังประโยคจากเอกสารทางการแพทย์และชีวภาพหมายเหตุประกอบสำหรับการปฏิเสธการเก็งกำไรและขอบเขตภาษาศาสตร์
- Biored - Paper - ชุดคำอธิบายประกอบความสัมพันธ์ทางชีวการแพทย์> 6.5K รวมถึงฉลากสำหรับการค้นพบใหม่
ปฏิสัมพันธ์โปรตีนโปรตีนหมายเหตุประกอบ Corpora
ปฏิสัมพันธ์ระหว่างโปรตีนโปรตีนจะย่อเป็น PPI ชุดต่อไปนี้มีอยู่ในรูปแบบ BIOC ชุดเก่า (เล็ง, bioinfer, HPRD50, IEPA และ LLL) ได้รับความอนุเคราะห์จากพื้นที่เก็บข้อมูล WBI Corpora และได้มาจากชุดดั้งเดิมโดยกลุ่มที่มหาวิทยาลัย Turku
- จุดมุ่งหมาย - กระดาษ - 225 บทคัดย่อ Medline หมายเหตุประกอบสำหรับ PPI
- Bioc -biogrid - กระดาษ - 120 บทความข้อความเต็มรูปแบบหมายเหตุประกอบสำหรับ PPI และปฏิสัมพันธ์ทางพันธุกรรม ใช้ในงาน Biocreative V BIOC
- Bioinfer - Paper - 1,100 ประโยคจากบทคัดย่อการวิจัยทางชีวการแพทย์มีคำอธิบายประกอบสำหรับความสัมพันธ์ (รวมถึง PPI), เอนทิตีที่มีชื่อและการพึ่งพาทางไวยากรณ์ ข้อมูลเพิ่มเติมและลิงก์ดาวน์โหลดอยู่ที่นี่
- HPRD50 - กระดาษ - 50 บทคัดย่อทางวิทยาศาสตร์ที่อ้างอิงโดยฐานข้อมูลอ้างอิงโปรตีนของมนุษย์หมายเหตุประกอบสำหรับ PPI
- IEPA - กระดาษ - 486 ประโยคจากบทคัดย่อการวิจัยทางชีวการแพทย์มีคำอธิบายประกอบสำหรับคู่ของสารเคมีที่เกิดขึ้นร่วมรวมถึงโปรตีน (ดังนั้นจึงมีคำอธิบายประกอบ PPI)
- LLL - กระดาษ - 77 ประโยคจากบทความวิจัยเกี่ยวกับแบคทีเรีย Bacillus subtilis , คำอธิบายประกอบสำหรับปฏิสัมพันธ์โปรตีน - ยีน (ดังนั้นค่อนข้างใกล้เคียงกับคำอธิบายประกอบ PPI) ข้อมูลเพิ่มเติมอยู่ที่นี่
ชุดข้อมูลอื่น ๆ
- Columbia Open Health Data - Paper - ฐานข้อมูลความชุกและความถี่การเกิดร่วมของเงื่อนไขยาขั้นตอนและข้อมูลประชากรผู้ป่วยที่สกัดจากบันทึกสุขภาพอิเล็กทรอนิกส์ ไม่รวมข้อความบันทึกต้นฉบับ
- ฐานข้อมูล Toxicogenomics เปรียบเทียบ - กระดาษ - ฐานข้อมูลของการเชื่อมโยงที่ดูแลด้วยตนเองระหว่างสารเคมีผลิตภัณฑ์ยีนฟีโนไทป์โรคและการสัมผัสกับสิ่งแวดล้อม มีประโยชน์สำหรับการรวบรวม ontologies ของแนวคิดที่เกี่ยวข้องเช่นประเภทของสารเคมี
- MIMIC -III - กระดาษ - ข้อมูลสุขภาพดีจากการรับเข้าเรียนที่ผู้ป่วยหนัก ~ 60,000 คน ต้องเสร็จสิ้นหลักสูตรการฝึกอบรมออนไลน์ (การฝึกอบรม CITI) และการยอมรับข้อตกลงการใช้ข้อมูลก่อนใช้งาน
- MIMIC-CXR-ฐานข้อมูล X-Ray ที่เลียนแบบ มีภาพรังสีมากกว่า 377,000 ภาพและมีรายงานรังสีวิทยาข้อความฟรี เช่นเดียวกับ MIMIC-III ต้องยอมรับข้อตกลงการใช้ข้อมูล
- แหล่งความรู้ UMLS - คู่มืออ้างอิง - คอลเลกชันขนาดใหญ่และครอบคลุมของคำศัพท์ทางชีวการแพทย์และตัวระบุรวมถึงเครื่องมือและสคริปต์ประกอบ ขึ้นอยู่กับวัตถุประสงค์ของคุณไฟล์เดียว mrconso.rrf อาจเพียงพอเนื่องจากไฟล์นี้มีตัวระบุและชื่อที่ไม่ซ้ำกันสำหรับแนวคิดทั้งหมดใน UMLS metathesaurus ดูเพิ่มเติมที่ ontologies และส่วนคำศัพท์ที่ควบคุมด้านล่าง
- MIMIC-IV-การอัปเดตข้อมูลผู้ป่วยหลายรูปแบบของ MIMIC-III ซึ่งครอบคลุมการรับสมัครหลายปีที่ผ่านมารวมถึงโครงสร้างข้อมูลใหม่บันทึกแผนกฉุกเฉินและลิงก์ไปยังภาพ MIMIC-CXR
- ฐานข้อมูลการวิจัยการทำงานร่วมกันของ EICU - Paper - ฐานข้อมูลการสังเกตจากการรับเข้าเรียนที่มีผู้ป่วยหนักกว่า 200 พันคนพร้อมโครงสร้างที่สอดคล้องกัน ต้องมีการลงทะเบียนหลักสูตรการฝึกอบรมและข้อตกลงการใช้ข้อมูล
กลับไปด้านบน
ontologies และคำศัพท์ที่ควบคุม
- โรคออนโทโลจี - กระดาษ - อภิปรัชญาของโรคของมนุษย์ มีการเชื่อมโยงข้ามไปยังตาข่าย, ICD, NCI อรรถาภิธาน, Snomed และ Omim โดเมนสาธารณะ มีอยู่ใน GitHub และบนโรงหล่อ OBO
- RXNORM - กระดาษ - ชื่อปกติสำหรับยาทางคลินิกและแพ็คยาด้วยส่วนผสมรวมจุดแข็งและรูปแบบและประเภทที่ได้รับมอบหมายจากเครือข่ายความหมาย (ดูด้านล่าง) ปล่อยออกมาทุกเดือน
- ผู้เชี่ยวชาญพจนานุกรม - กระดาษ - พจนานุกรมภาษาอังกฤษทั่วไปที่มีเงื่อนไขทางชีวการแพทย์มากมาย อัปเดตทุกปีตั้งแต่ปี 1994 และยังคงอัปเดต ณ ปี 2019 ส่วนหนึ่งของ UMLs แต่ไม่ต้องการให้บัญชี UTS ดาวน์โหลด
- UMLS Metathesaurus - กระดาษ - การแมประหว่าง> 3.8 ล้านแนวคิดชื่อแนวคิด 14 ล้านชื่อและ> 200 แหล่งคำศัพท์ชีวการแพทย์และตัวระบุ มันใหญ่ มันอาจช่วยเตรียมชุดย่อยของ Metathesaurus ด้วยเครื่องมือติดตั้ง Metamorphosys แต่เรายังคงพูดถึงพื้นที่ดิสก์ ~ 30 GB ที่จำเป็นสำหรับการเปิดตัว 2019 ดูคู่มือที่นี่ ต้องใช้บัญชี UTS
- UMLS Semantic Network - กระดาษ - รายการ 133 ประเภทความหมายและ 54 ความสัมพันธ์ทางความหมายซึ่งครอบคลุมแนวคิดทางชีวการแพทย์และคำศัพท์ Metathesaurus ซับซ้อนเกินไปสำหรับความต้องการของคุณหรือไม่? ลองสิ่งนี้ ไม่ต้องการให้บัญชี UTS ดาวน์โหลด
กลับไปด้านบน
แบบจำลองข้อมูล
คุณต้องการรูปแบบข้อมูลหรือไม่? หากคุณกำลังทำงานกับข้อมูลชีวการแพทย์คำตอบอาจเป็น "ใช่"
- Biolink - รหัส - แบบจำลองข้อมูลของหน่วยงานทางชีวภาพ ให้เป็นไฟล์ Yaml
- Biouml - Paper - สถาปัตยกรรมสำหรับการวิเคราะห์ข้อมูลชีวการแพทย์การรวมและการสร้างภาพข้อมูล แนวคิดตามแนวคิดการสร้างแบบจำลองภาพ UML
- OMOP MODEL ข้อมูลทั่วไป - มาตรฐานสำหรับข้อมูลการดูแลสุขภาพเชิงสังเกตการณ์
กลับไปด้านบน
การให้เครดิต
เครดิตสำหรับภัณฑารักษ์และแหล่งที่มา
ใบอนุญาต
ใบอนุญาต