Этот репозиторий содержит весь код и ресурсы, связанные с моей главной диссертацией по теме
«Рецидивирующее моделирование нейронного языка - использование переноса обучения для выполнения рентгенологического завершения»
Аннотация: Мотивированный потенциальными преимуществами системы, которая ускоряет процесс написания рентгенологических отчетов, мы представляем рецидивирующую модель языка нейронной сети для моделирования радиологического языка. Мы показываем, что рецидивирующие модели нейронного языка могут быть использованы для создания убедительных радиологических отчетов и исследования, как их производительность может быть улучшена с помощью расширенных методов регуляризации и инициализации. Кроме того, мы изучаем использование переноса обучения для создания языковых моделей, специфичных для тем.
Исходные данные, используемые в тезисе, являются конфиденциальными. Таким образом, этот репозиторий оснащен версией кода, которая работает на наборе данных Penn Treebank, доступной здесь.
Чтобы запустить код, вам придется сначала предварительно обрабатывать данные. Более подробную информацию об этом можно найти в папке SRC/Data/
Адаптируя файл конфигурации, можно проверить следующие функции:
Тезис и слайды можно найти в папке отчетов
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Проект, основанный на шаблоне проекта Data Science CookieCutter. #cookiecutterdatascience