Ce référentiel contient tout le code et les ressources liées à ma thèse de maîtrise sur le sujet
"Modélisation récurrente du langage neuronal - Utilisation d'apprentissage du transfert pour effectuer l'achèvement des phrases radiologiques"
Résumé: Motivé par les avantages potentiels d'un système qui accélère le processus d'écriture de rapports radiologiques, nous présentons un modèle de langage de réseau neuronal récurrent pour modéliser le langage radiologique. Nous montrons que les modèles de langage neuronal récurrent peuvent être utilisés pour produire des rapports radiologiques convaincants et étudier comment leurs performances peuvent être améliorées en utilisant des techniques avancées de régularisation et d'initialisation. De plus, nous étudions l'utilisation de l'apprentissage par transfert pour créer des modèles de langage spécifiques à un sujet.
Les données originales utilisées dans la thèse sont confidentielles. Par conséquent, ce référentiel dispose d'une version du code qui s'exécute sur l'ensemble de données Penn Treebank disponible ici.
Pour exécuter le code, vous devrez d'abord prétraiter les données. De plus amples détails peuvent être trouvés dans le dossier SRC / DATA /
En adaptant le fichier de configuration, les fonctionnalités suivantes peuvent être testées:
La thèse et les diapositives peuvent être trouvées dans le dossier des rapports
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Projet basé sur le modèle de projet de science des données Cookiecutter. #cookiecterdatascience