Статус: архивировано. Код предоставляется как есть без ожидаемых обновлений. К сожалению, у меня нет личного времени, чтобы больше посвятить себя поддержанию этого репо/ответа на проблемы, а также доступ к набору данных MIMIC, хотя я надеюсь, что модельный код и разделения данных все еще могут быть полезны для сообщества.
Код для статьи объяснимого прогнозирования медицинских кодов из клинического текста.
Другие версии также могут работать, но перечисленные - те, которые я использовал
Чтобы начать, сначала отредактируйте constants.py , чтобы указать на каталоги, содержащие ваши копии наборов данных Mimic-II и Mimic-III. Затем организуйте свои данные со следующей структурой:
mimicdata
| D_ICD_DIAGNOSES.csv
| D_ICD_PROCEDURES.csv
| ICD9_descriptions (already in repo)
└───mimic2/
| | MIMIC_RAW_DSUMS
| | MIMIC_ICD9_mapping
| | training_indices.data
| | testing_indices.data
└───mimic3/
| | NOTEEVENTS.csv
| | DIAGNOSES_ICD.csv
| | PROCEDURES_ICD.csv
| | *_hadm_ids.csv (already in repo)
Файлы MIMIC-II могут быть получены из этого репозитория.
Теперь убедитесь, что ваш путь Python включает базовый каталог этого репозитория. Затем, в ноутбуке Юпитера, запустите все ячейки (в меню, нажмите Cell -> запустить все) в notebooks/dataproc_mimic_II.ipynb и notebooks/dataproc_mimic_III.ipynb . Это займет некоторое время, так что идите на прогулку или испечь куки, пока вы ждете. Вы можете ускорить его, пропустив разделы «Встроенные слова» перед поездками.
Чтобы непосредственно воспроизвести результаты статьи, сначала запустите шаги обработки данных выше. Мы предоставляем наши предварительно обученные модели для CAML и DR-CAML для полного набора данных MIMIC-III. Они сохраняются как model.pth . Мы также предоставляем скрипт evaluate_model.sh , чтобы воспроизвести наши результаты моделей.
Чтобы обучить новую модель с нуля, пожалуйста, используйте Script learn/training.py . Выполнить python training.py -h для полного списка входных аргументов и флагов. Сценарии train_new_model.sh в predictions/ подкатариях могут служить в качестве примеров (или вы можете запустить их непосредственно, чтобы использовать те же гиперпараметры).
Прогнозы, которые обеспечивают результаты в статье, представлены в predictions/ . Каждый каталог содержит:
preds_test.psv , файл, разделенные на трубе, содержащий прогнозы HADM_ID и модели всех примеров тестированияtrain_new_model.sh , которая обучает новую модель с гиперпараметрами, предоставленными в статье. Чтобы воспроизвести наши результаты F-меши из предсказаний, например, результаты CNN по MIMIC-II, запустите python get_metrics_for_saved_predictions.py predictions/CNN_mimic2_full .