LSTM_language_model
1.0.0
このリポジトリには、トピックに関する私のマスター論文に関連するすべてのコードとリソースが含まれています
「再発性神経言語モデリング - 転送学習を使用して放射線文の完了を実行する」
要約:放射線レポートを作成するプロセスを加速するシステムの潜在的な利点に動機付けられ、放射線学的言語をモデリングするための再発性ニューラルネットワーク言語モデルを提示します。再発性神経言語モデルを使用して、説得力のある放射線報告を作成し、高度な正則化と初期化手法を使用してパフォーマンスを改善する方法を調査できることを示します。さらに、転送学習の使用を研究して、トピック固有の言語モデルを作成します。
論文で使用されている元のデータは機密です。したがって、このリポジトリには、ここで入手可能なPenn TreeBankデータセットで実行されるコードのバージョンが掲載されています。
コードを実行するには、最初にデータを前処理する必要があります。これの詳細については、フォルダーsrc/data/を参照してください。
構成ファイルを適応させることにより、次の機能をテストできます。
論文とスライドはレポートフォルダーにあります
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Cookiecutterデータサイエンスプロジェクトテンプレートに基づくプロジェクト。 #cookiecutterdatascience