Este repositório contém todo o código e recursos relacionados à minha tese de mestrado sobre o tópico
"Modelagem de linguagem neural recorrente - usando o aprendizado de transferência para realizar a conclusão da sentença radiológica"
Resumo: Motivado pelos benefícios potenciais de um sistema que acelera o processo de redação de relatórios radiológicos, apresentamos um modelo de linguagem de rede neural recorrente para modelar a linguagem radiológica. Mostramos que os modelos recorrentes de linguagem neural podem ser usados para produzir relatórios radiológicos convincentes e investigar como seu desempenho pode ser melhorado usando técnicas avançadas de regularização e inicialização. Além disso, estudamos o uso do aprendizado de transferência para criar modelos de idiomas específicos de tópicos.
Os dados originais usados na tese são confidenciais. Portanto, este repositório apresenta uma versão do código que é executado no conjunto de dados Penn Treebank disponível aqui.
Para executar o código, você precisará pré -processar os dados primeiro. Mais detalhes sobre isso podem ser encontrados na pasta src/dados/
Ao adaptar o arquivo de configuração, os seguintes recursos podem ser testados:
A tese e os slides podem ser encontrados na pasta Relatórios
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Projeto com base no modelo de projeto de ciência de dados CookieCutter. #COOKIECTUTTERDATASCIENCE