Este repositorio contiene todo el código y los recursos relacionados con mi tesis maestra sobre el tema.
"Modelado recurrente de lenguaje neuronal: utilizando el aprendizaje de transferencia para realizar la finalización de las oraciones radiológicas"
Resumen: Motivado por los beneficios potenciales de un sistema que acelera el proceso de redacción de informes radiológicos, presentamos un modelo de lenguaje de red neuronal recurrente para modelar el lenguaje radiológico. Mostramos que los modelos de lenguaje neuronal recurrente pueden usarse para producir informes radiológicos convincentes e investigar cómo se puede mejorar su rendimiento mediante el uso de técnicas avanzadas de regularización e inicialización. Además, estudiamos el uso del aprendizaje de transferencia para crear modelos de lenguaje específicos del tema.
Los datos originales utilizados en la tesis son confidenciales. Por lo tanto, este repositorio presenta una versión del código que se ejecuta en el conjunto de datos Penn Treebank disponible aquí.
Para ejecutar el código, primero tendrá que preprocesar los datos. Se pueden encontrar más detalles sobre esto en la carpeta src/data/
Al adaptar el archivo de configuración, se pueden probar las siguientes características:
La tesis y las diapositivas se pueden encontrar en la carpeta de informes
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Proyecto basado en la plantilla del proyecto de ciencia de datos de CookieCutter. #CookiecutututDataScience