Dieses Repository enthält alle Code und Ressourcen, die sich auf meine Master -These zum Thema beziehen
"Rezidivierende Modellierung der neuronalen Sprache - Verwenden von Transferlernen zur Durchführung radiologischer Satzabschlüsse"
Zusammenfassung: Motiviert durch die potenziellen Vorteile eines Systems, das den Prozess des Schreibens radiologischer Berichte beschleunigt, präsentieren wir ein rezidivierendes neuronales Netzwerksprachenmodell für die Modellierung radiologischer Sprache. Wir zeigen, dass wiederkehrende Modelle für neuronale Sprache verwendet werden können, um überzeugende radiologische Berichte zu erstellen und zu untersuchen, wie ihre Leistung durch fortschrittliche Regularisierungs- und Initialisierungstechniken verbessert werden kann. Darüber hinaus untersuchen wir die Verwendung von Transferlernen, um themenspezifische Sprachmodelle zu erstellen.
Die in der These verwendeten ursprünglichen Daten sind vertraulich. Daher enthält dieses Repository eine Version des Code, die auf dem hier verfügbaren Penn Treebank -Datensatz ausgeführt wird.
Um den Code auszuführen, müssen Sie zuerst die Daten vorbereiten. Weitere Details dazu finden Sie im Ordner SRC/Daten/
Durch Anpassung der Konfigurationsdatei können die folgenden Funktionen getestet werden:
Die These und die Folien finden Sie im Ordner Berichte
├── LICENSE
├── README.md <- The top-level README
├── data
│ ├── raw <- Original PTB files
│ ├── training_files <- Preprocessed PTB word ids
│ └── embeddings <- word embeddings
│ │
│ ├── fasttext
│ └── word2vec
│
├── models <- Trained and serialized models
│ ├── checkpoints <- Model checkpoints
│ └── tensorboard <- Tensorboard logs
│
├── reports <- Thesis and presentation slides
│
├── requirements.txt <- The requirements file for reproducing the analysis environment
│
├── src <- Source code for use in this project.
│ │
│ ├── __init__.py <- Makes src a Python module
│ │
│ ├── main.py <- main file for training, testing, etc.
│ │
│ ├── config_ptb.yamp <- config file, specifying model params
│ │
│ ├── data <- scripts to preprocess data
│ │ │
│ │ ├── README.md
│ │ ├── preprocess_ptb.py
│ │ └── inverse_dict.py
│ │
│ ├── embeddings <- scripts to train word embeddings
│ │ │
│ │ ├── README.md
│ │ ├── fasttext.py
│ │ └── word2vec.py
│ │
│ ├── models <- Scripts to train models and then use trained models to make predictions
│ │ │
│ │ └── ptb_basic_model.py
│ │
│ └── visualization <- Scripts to create exploratory and results oriented visualizations
│ │
│ ├── README.md
│ └── visualize_embeddings.py
│
└──
Projekt basierend auf der CookieCutter Data Science -Projektvorlage. #CookieCutterDatascience