LSTM_language_model
1.0.0
該存儲庫包含與我的主題有關的所有代碼和資源
“復發性神經語言建模 - 使用轉移學習執行放射學句子完成”
摘要:由加速編寫放射學報告過程的系統的潛在好處的動機,我們提出了一種複發性神經網絡語言模型,用於建模放射學語言。我們表明,復發性神經語言模型可用於生成令人信服的放射學報告,並通過使用高級正則化和初始化技術來研究如何提高其性能。此外,我們研究轉移學習的使用以創建特定於主題的語言模型。
論文中使用的原始數據是機密的。因此,此存儲庫具有在此處可用的Penn Treebank數據集上運行的代碼版本。
要運行代碼,您必須先預處理數據。有關此的更多詳細信息,請參見文件夾SRC/Data/
通過調整配置文件,可以測試以下功能:
論文和幻燈片可以在報告文件夾中找到
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
基於CookieCutter數據科學項目模板的項目。 #CookieCutterDataScience