Status: Diarsipkan. Kode disediakan apa adanya tanpa pembaruan yang diharapkan. Sayangnya saya tidak memiliki waktu pribadi untuk mendedikasikan untuk mempertahankan repo ini/menanggapi masalah, atau akses ke dataset Mimic lagi, meskipun saya berharap kode model dan pemisahan data masih dapat digunakan untuk masyarakat.
Kode untuk makalah ini dapat dijelaskan prediksi kode medis dari teks klinis.
Versi lain juga dapat berfungsi, tetapi yang terdaftar adalah yang saya gunakan
Untuk memulai, pertama-tama edit constants.py untuk menunjuk ke direktori yang memegang salinan dataset Mimic-II dan Mimic-III Anda. Kemudian, atur data Anda dengan struktur berikut:
mimicdata
| D_ICD_DIAGNOSES.csv
| D_ICD_PROCEDURES.csv
| ICD9_descriptions (already in repo)
└───mimic2/
| | MIMIC_RAW_DSUMS
| | MIMIC_ICD9_mapping
| | training_indices.data
| | testing_indices.data
└───mimic3/
| | NOTEEVENTS.csv
| | DIAGNOSES_ICD.csv
| | PROCEDURES_ICD.csv
| | *_hadm_ids.csv (already in repo)
File Mimic-II dapat diperoleh dari repositori ini.
Sekarang, pastikan jalur Python Anda termasuk direktori dasar repositori ini. Kemudian, di jupyter notebook, jalankan semua sel (di menu, klik sel -> jalankan semua) di notebooks/dataproc_mimic_II.ipynb dan notebooks/dataproc_mimic_III.ipynb . Ini akan memakan waktu, jadi jalan -jalan atau panggang kue sambil menunggu. Anda dapat mempercepatnya dengan melewatkan bagian "pre-train word embeddings".
Untuk secara langsung mereproduksi hasil kertas, pertama -tama jalankan langkah -langkah pemrosesan data di atas. Kami menyediakan model pra-terlatih kami untuk CAML dan DR-CAML untuk dataset label penuh Mimic-III. Mereka disimpan sebagai model.pth di direktori masing -masing. Kami juga menyediakan skrip evaluate_model.sh untuk mereproduksi hasil kami dari model.
Untuk melatih model baru dari awal, silakan gunakan skrip learn/training.py . Jalankan python training.py -h untuk daftar lengkap argumen input dan bendera. Skrip train_new_model.sh dalam predictions/ subdirektori dapat berfungsi sebagai contoh (atau Anda dapat menjalankannya secara langsung untuk menggunakan hiperparameter yang sama).
Prediksi yang memberikan hasil dalam kertas disediakan dalam predictions/ . Setiap direktori berisi:
preds_test.psv , file nilai yang dipisahkan pipa yang berisi prediksi HADM_ID dan model dari semua contoh pengujiantrain_new_model.sh , yang melatih model baru dengan hiperparameter yang disediakan di koran. Untuk mereproduksi hasil F-Feasure kami dari prediksi, misalnya hasil CNN pada Mimic-II, jalankan python get_metrics_for_saved_predictions.py predictions/CNN_mimic2_full .