LSTM_language_model
1.0.0
이 저장소에는 주제에 대한 마스터 논문과 관련된 모든 코드 및 리소스가 포함되어 있습니다.
"재발 성 신경 언어 모델링 - 전송 학습을 사용하여 방사선 문장 완료를 수행"
초록 : 방사선 보고서를 작성하는 과정을 가속화하는 시스템의 잠재적 이점에 동기를 부여하면 방사선 언어 모델링을위한 반복 신경 네트워크 언어 모델을 제시합니다. 우리는 재발 성 신경 언어 모델이 설득력있는 방사선 보고서를 생성하는 데 사용될 수 있으며 고급 정규화 및 초기화 기술을 사용하여 어떻게 성능을 향상시킬 수 있는지 조사 할 수 있음을 보여줍니다. 또한, 우리는 주제 별 언어 모델을 만드는 데 전송 학습의 사용을 연구합니다.
논문에 사용 된 원래 데이터는 기밀입니다. 따라서이 저장소에는 여기에서 사용 가능한 Penn TreeBank 데이터 세트에서 실행되는 코드 버전이 있습니다.
코드를 실행하려면 먼저 데이터를 전처리해야합니다. 이에 대한 자세한 내용은 폴더 SRC/Data/ 에서 확인할 수 있습니다.
구성 파일을 조정하면 다음 기능을 테스트 할 수 있습니다.
논문과 슬라이드는 보고서 폴더에서 찾을 수 있습니다.
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Cookiecutter 데이터 과학 프로젝트 템플릿을 기반으로 한 프로젝트. #cookiecutterdatascience