狀態:存檔。提供代碼,因為沒有預期的更新。不幸的是,我沒有個人時間來專門用於維護此回購/響應問題,而不是訪問模擬數據集,儘管我希望模型代碼和數據拆分仍然可以對社區使用。
本文的代碼可以解釋臨床文本對醫學法規的預測。
其他版本也可能起作用,但列出的版本是我使用的版本
首先,首先要編輯constants.py指向持有模擬II和MIMIC-III數據集的副本的目錄。然後,通過以下結構組織數據:
mimicdata
| D_ICD_DIAGNOSES.csv
| D_ICD_PROCEDURES.csv
| ICD9_descriptions (already in repo)
└───mimic2/
| | MIMIC_RAW_DSUMS
| | MIMIC_ICD9_mapping
| | training_indices.data
| | testing_indices.data
└───mimic3/
| | NOTEEVENTS.csv
| | DIAGNOSES_ICD.csv
| | PROCEDURES_ICD.csv
| | *_hadm_ids.csv (already in repo)
可以從此存儲庫中獲得模擬II文件。
現在,確保您的Python路徑包括此存儲庫的基本目錄。然後,在jupyter筆記本中,在notebooks/dataproc_mimic_II.ipynb和notebooks/dataproc_mimic_III.ipynb中運行所有單元格(在菜單中,單擊單元格 - >運行全部)。這些將需要一些時間,因此在等待時去散步或烘烤一些餅乾。您可以跳過“預訓練單詞嵌入”部分來加快速度。
要直接複製論文的結果,請先運行上面的數據處理步驟。我們為MIMIC-III全標籤數據集提供了CAML和DR-CAML的預訓練模型。它們在各自目錄中被保存為model.pth 。我們還提供了一個evaluate_model.sh腳本,以從模型中復制我們的結果。
要從頭開始訓練新模型,請使用腳本learn/training.py 。執行python training.py -h以獲取輸入參數和標誌的完整列表。 predictions/子目錄中的train_new_model.sh腳本可以用作示例(或者您可以直接運行這些腳本以使用相同的超參數)。
在predictions/中提供了提供本文結果的預測。每個目錄包含:
preds_test.psv ,一個包含HADM_ID和模型預測的管道分隔的值文件train_new_model.sh ,該培訓新型號的紙張中提供的超參數。為了從預測中重現我們的f量表結果,例如,在模擬II上的CNN結果,運行python get_metrics_for_saved_predictions.py predictions/CNN_mimic2_full 。