Este repositorio contiene el código Pytorch para la atención de la posición del papel y los datos supervisados mejoran el llenado de ranuras.
El conjunto de datos Tacred : los detalles sobre el conjunto de datos de extracción de relación TAC se pueden encontrar en este sitio web del conjunto de datos.
Primero, descargue y vectores de guantes descifrados del sitio web de Stanford, con:
chmod +x download.sh; ./download.sh
Luego prepare el vocabulario y los vectores de palabras iniciales con:
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
Esto escribirá vectores de vocabulario y palabras como una matriz numpy en el dataset/vocab DIR.
Entrena un modelo RNN de atención al consciente de la posición con:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
Use --topn N para fininar solo los vectores de palabras n supercho. El script hará el preprocesamiento automáticamente (abandono de palabras, enmascaramiento de entidad, etc.).
Entrena un modelo LSTM con:
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
Los puntos de control del modelo y los registros se guardarán en ./saved_models/00 .
Ejecutar evaluación en el conjunto de pruebas con:
python eval.py saved_models/00 --dataset test
Esto utilizará el best_model.pt de forma predeterminada. Use --model checkpoint_epoch_10.pt para especificar un archivo de punto de control modelo. Agregue --out saved_models/out/test1.pkl para escribir la salida de probabilidad del modelo a los archivos (para conjunto, etc.).
Consulte el Ejemplo de script ensemble.sh .
Todo el trabajo contenido en este paquete tiene licencia bajo la licencia Apache, versión 2.0. Consulte el archivo de licencia incluido.