สถานะ: เก็บถาวร รหัสมีให้ตามที่คาดไว้โดยไม่คาดหวัง น่าเสียดายที่ฉันไม่มีเวลาส่วนตัวในการอุทิศเพื่อรักษา repo/ตอบสนองต่อปัญหานี้หรือเข้าถึงชุดข้อมูลเลียนแบบอีกต่อไปแม้ว่าฉันหวังว่ารหัสโมเดลและการแยกข้อมูลยังคงเป็นประโยชน์ต่อชุมชน
รหัสสำหรับกระดาษที่อธิบายการทำนายรหัสทางการแพทย์จากข้อความทางคลินิก
รุ่นอื่น ๆ อาจใช้งานได้เช่นกัน แต่สิ่งที่ระบุไว้คือรุ่นที่ฉันเคยใช้
ในการเริ่มต้นใช้งาน constants.py ที่การแก้ไขครั้งแรก PY เพื่อชี้ไปที่ไดเรกทอรีที่ถือสำเนาชุดข้อมูล MIMIC-II และ MIMIC-III ของคุณ จากนั้นจัดระเบียบข้อมูลของคุณด้วยโครงสร้างต่อไปนี้:
mimicdata
| D_ICD_DIAGNOSES.csv
| D_ICD_PROCEDURES.csv
| ICD9_descriptions (already in repo)
└───mimic2/
| | MIMIC_RAW_DSUMS
| | MIMIC_ICD9_mapping
| | training_indices.data
| | testing_indices.data
└───mimic3/
| | NOTEEVENTS.csv
| | DIAGNOSES_ICD.csv
| | PROCEDURES_ICD.csv
| | *_hadm_ids.csv (already in repo)
ไฟล์ MIMIC-II สามารถรับได้จากที่เก็บนี้
ตอนนี้ตรวจสอบให้แน่ใจว่าเส้นทาง Python ของคุณมีไดเรกทอรีพื้นฐานของที่เก็บนี้ จากนั้นในสมุดบันทึก Jupyter ให้เรียกใช้เซลล์ทั้งหมด (ในเมนูคลิกเซลล์ -> เรียกใช้ทั้งหมด) ใน notebooks/dataproc_mimic_II.ipynb และ notebooks/dataproc_mimic_III.ipynb สิ่งเหล่านี้จะใช้เวลาสักครู่ดังนั้นไปเดินเล่นหรืออบคุกกี้ในขณะที่คุณรอ คุณสามารถเร่งความเร็วได้โดยการข้ามส่วน "Pre-Train Word Embeddings"
ในการทำซ้ำผลลัพธ์ของกระดาษโดยตรงก่อนที่จะเรียกใช้ขั้นตอนการประมวลผลข้อมูลด้านบน เราจัดทำโมเดลที่ผ่านการฝึกอบรมล่วงหน้าสำหรับ CAML และ DR-CAML สำหรับชุดข้อมูลเต็มรูปแบบ MIMIC-III พวกเขาจะถูกบันทึกเป็นแบบ model.pth ในไดเรกทอรีที่เกี่ยวข้อง นอกจากนี้เรายังให้สคริปต์ evaluate_model.sh เพื่อทำซ้ำผลลัพธ์ของเราจากโมเดล
หากต้องการฝึกอบรมรุ่นใหม่ตั้งแต่เริ่มต้นโปรดใช้สคริปต์ learn/training.py ดำเนินการ python training.py -h สำหรับรายการทั้งหมดของอาร์กิวเมนต์อินพุตและธง สคริปต์ train_new_model.sh ใน predictions/ ไดเรกทอรีย่อยสามารถใช้เป็นตัวอย่าง (หรือคุณสามารถเรียกใช้โดยตรงเพื่อใช้พารามิเตอร์ไฮเปอร์พารามิเตอร์เดียวกัน)
การคาดการณ์ที่ให้ผลลัพธ์ในกระดาษมีให้ใน predictions/ แต่ละไดเรกทอรีมี:
preds_test.psv , ไฟล์ค่าที่คั่นด้วยท่อที่มีการทำนาย Hadm_id และแบบจำลองของตัวอย่างการทดสอบทั้งหมดtrain_new_model.sh ซึ่งฝึกอบรมรุ่นใหม่ด้วย HyperParameters ที่ให้ไว้ในกระดาษ ในการทำซ้ำผลลัพธ์ F-measure ของเราจากการทำนายตัวอย่างเช่นผลลัพธ์ CNN ใน MIMIC-II ให้เรียกใช้ python get_metrics_for_saved_predictions.py predictions/CNN_mimic2_full