상태 : 보관. 코드는 업데이트가 예상되지 않은 상태로 제공됩니다. 불행히도 나는이 레포지기를 유지/문제에 대한 응답에 전념 할 시간이 없거나 더 이상 Mimic DataSet에 액세스 할 수는 없지만 모델 코드와 데이터 분할이 여전히 커뮤니티에 사용할 수 있기를 바랍니다.
논문에 대한 코드 임상 텍스트에서 의료 코드의 설명 가능한 예측.
다른 버전도 작동 할 수 있지만 나열된 버전은 내가 사용한 버전입니다.
시작하려면 먼저 constants.py 편집하여 MIMIC-II 및 MIMIC-III 데이터 세트의 사본을 보유한 디렉토리를 가리 키십시오. 그런 다음 다음 구조로 데이터를 구성하십시오.
mimicdata
| D_ICD_DIAGNOSES.csv
| D_ICD_PROCEDURES.csv
| ICD9_descriptions (already in repo)
└───mimic2/
| | MIMIC_RAW_DSUMS
| | MIMIC_ICD9_mapping
| | training_indices.data
| | testing_indices.data
└───mimic3/
| | NOTEEVENTS.csv
| | DIAGNOSES_ICD.csv
| | PROCEDURES_ICD.csv
| | *_hadm_ids.csv (already in repo)
MIMIC-II 파일은이 저장소에서 얻을 수 있습니다.
이제 파이썬 경로 에이 저장소의 기본 디렉토리가 포함되어 있는지 확인하십시오. 그런 다음 Jupyter Notebook에서 모든 셀을 실행하십시오 (메뉴에서 notebooks/dataproc_mimic_II.ipynb 에서 셀을 클릭 notebooks/dataproc_mimic_III.ipynb . 이것들은 시간이 좀 걸릴 것이므로, 기다리는 동안 쿠키를 굽거나 쿠키를 굽습니다. "사전 트레인 단어 임베드"섹션을 건너 뛰면 속도를 높일 수 있습니다.
논문의 결과를 직접 재현하려면 먼저 위의 데이터 처리 단계를 실행하십시오. 우리는 MIMIC-III 전체 라벨 데이터 세트에 대한 CAML 및 DR-CAML에 대한 미리 훈련 된 모델을 제공합니다. 각 디렉토리에서 model.pth 로 저장됩니다. 또한 모델에서 결과를 재현하기 위해 evaluate_model.sh 스크립트를 제공합니다.
새로운 모델을 처음부터 훈련 시키려면 Script learn/training.py 사용하십시오. 입력 인수 및 플래그의 전체 목록을 보려면 python training.py -h 실행하십시오. train_new_model.sh 스크립트 predictions/ 하위 디렉토리의 스크립트는 예제 역할을 할 수 있습니다 (또는 동일한 하이퍼 파라미터를 사용할 수 있도록 직접 실행할 수 있음).
논문에서 결과를 제공하는 예측은 predictions/ . 각 디렉토리에는 다음이 포함됩니다.
preds_test.psv , 모든 테스트 예제의 hadm_id 및 모델 예측이 포함 된 파이프 분리 된 값 파일train_new_model.sh 는 용지에 제공된 초 파라미터로 새로운 모델을 훈련시킵니다. 예측에서 F- 측정 결과, 예를 들어 MIMIC-II의 CNN 결과를 재현하려면 python get_metrics_for_saved_predictions.py predictions/CNN_mimic2_full 실행하십시오.