Verificação de factualidade das predições semrep
O projeto lida com um modelo de linguagem baseado em transformadores para filtrar predições pertencentes ao seguinte subconjunto de predicados do SEMMEDDB, informalmente chamado de Grupo "Interações de Substâncias":
MD Rakibul Islã Prince Pós-Graduação Departamento de Pesquisa de Engenharia Elétrica e de Computação Universidade Indiana-Purdue Indianapolis E-mail: [email protected]
Para reproduzir os resultados no início, são necessários todos os pacotes necessários para serem instalados. O arquivo YAML "semprepenv.yml" encapsula o ambiente do CONDA que eu usei.
correr
CONDA ENV CREATE -F SEMREPENV.YML
CONDA ATIRA SEMREPENV
ou,
pip install -r requisitos.txt
Para instalar o ambiente antes de executar qualquer script ou notebook. Ou você pode instalar manualmente os pacotes do arquivo "requisitos.txt"
/semrep
├── /dados
│ ├── Substance_Interactions.csv
│ └── Substance_Interactions_Cleaned.csv
├── /logs
│ ├── bert_logfile.log
│ ├── biobert_logfile.log
│ └── ...
├── /modelos
│ ├── SEMREP_SIMPLE_BERT_MODEL
│ ├── SEMREP_SIMPLE_BIOBERT_MODEL
│ └── ...
├── /gráficos
│ ├── bert_cat_arg_dis_impact_all.png
│ ├── bert_cat_arg_dis_impact_verbal.png
│ ├── bert_cum_arg_dis_impact_all.png
│ ├── bert_cum_arg_dis_impact_verbal.png
│ ├── bert_precision_recall_curve_all.png
│ ├── bert_precision_recall_curve_verbal.png
│ ├── bert_roc_curve.png
│ ├── bert_sub_obj_heatmap_all.png
│ ├── bert_sub_obj_heatmap_verbal.png
│ └── ...
├── /Resultados
│ ├── bert_test_set_0_results.csv
│ ├── val_bert_results.csv
│ ├── test_bert_results.csv
│ └── ...
├── /src
│ ├── SEMREP_MODEL.IPYNB
│ └── UTILS.PY
├── readme.txt
├── requisitos.txt
└── SemRepenv.yml
Abaixo está uma visão geral dos arquivos e pastas de chaves neste projeto:
`dados/': diretório em que os arquivos de dados brutos e processados são armazenados.
`Data/Substance_Interactions.csv ': arquivo de dados brutos
`Data/Substance_Interactions_cleaned.csv ': arquivo de dados processado e limpo
logs/ : Diretório que contém os logs para cada modelo.
logs/<model_name>_logfile.log : LogFile for Model <Model_Name>
models/ : diretório contendo os pontos de verificação FinetUned dos modelos.
plots/ : Diretório contendo todas as parcelas geradas durante a análise.
results/ : Diretório em que os resultados de teste e validação são instalados.
src/ : Diretório que contém os notebooks e scripts do modelo.
src/semrep_model.ipynb : notebook detalhando a implementação completa do projeto
src/utils.py : scripts usados para tarefas de visualização de análise de dados
`Readme.txt ': arquivo detalhando a descrição da base de código.
`requisitos.txt ': detalhamento de arquivos Pacotes necessários.
`Semprepenv.yml ': arquivo para recriar o meio ambiente.