LSTM_language_model
1.0.0
该存储库包含与我的主题有关的所有代码和资源
“复发性神经语言建模 - 使用转移学习执行放射学句子完成”
摘要:由加速编写放射学报告过程的系统的潜在好处的动机,我们提出了一种复发性神经网络语言模型,用于建模放射学语言。我们表明,复发性神经语言模型可用于生成令人信服的放射学报告,并通过使用高级正则化和初始化技术来研究如何提高其性能。此外,我们研究转移学习的使用以创建特定于主题的语言模型。
论文中使用的原始数据是机密的。因此,此存储库具有在此处可用的Penn Treebank数据集上运行的代码版本。
要运行代码,您必须先预处理数据。有关此的更多详细信息,请参见文件夹SRC/Data/
通过调整配置文件,可以测试以下功能:
论文和幻灯片可以在报告文件夹中找到
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
基于CookieCutter数据科学项目模板的项目。 #CookieCutterDataScience