状态:存档。提供代码,因为没有预期的更新。不幸的是,我没有个人时间来专门用于维护此回购/响应问题,而不是访问模拟数据集,尽管我希望模型代码和数据拆分仍然可以对社区使用。
本文的代码可以解释临床文本对医学法规的预测。
其他版本也可能起作用,但列出的版本是我使用的版本
首先,首先要编辑constants.py指向持有模拟II和MIMIC-III数据集的副本的目录。然后,通过以下结构组织数据:
mimicdata
| D_ICD_DIAGNOSES.csv
| D_ICD_PROCEDURES.csv
| ICD9_descriptions (already in repo)
└───mimic2/
| | MIMIC_RAW_DSUMS
| | MIMIC_ICD9_mapping
| | training_indices.data
| | testing_indices.data
└───mimic3/
| | NOTEEVENTS.csv
| | DIAGNOSES_ICD.csv
| | PROCEDURES_ICD.csv
| | *_hadm_ids.csv (already in repo)
可以从此存储库中获得模拟II文件。
现在,确保您的Python路径包括此存储库的基本目录。然后,在jupyter笔记本中,在notebooks/dataproc_mimic_II.ipynb和notebooks/dataproc_mimic_III.ipynb中运行所有单元格(在菜单中,单击单元格 - >运行全部)。这些将需要一些时间,因此在等待时去散步或烘烤一些饼干。您可以跳过“预训练单词嵌入”部分来加快速度。
要直接复制论文的结果,请先运行上面的数据处理步骤。我们为MIMIC-III全标签数据集提供了CAML和DR-CAML的预训练模型。它们在各自目录中被保存为model.pth 。我们还提供了一个evaluate_model.sh脚本,以从模型中复制我们的结果。
要从头开始训练新模型,请使用脚本learn/training.py 。执行python training.py -h以获取输入参数和标志的完整列表。 predictions/子目录中的train_new_model.sh脚本可以用作示例(或者您可以直接运行这些脚本以使用相同的超参数)。
在predictions/中提供了提供本文结果的预测。每个目录包含:
preds_test.psv ,一个包含HADM_ID和模型预测的管道分隔的值文件train_new_model.sh ,该培训新型号的纸张中提供的超参数。为了从预测中重现我们的f量表结果,例如,在模拟II上的CNN结果,运行python get_metrics_for_saved_predictions.py predictions/CNN_mimic2_full 。