이 repo에는 종이 위치 인식주의를위한 Pytorch 코드가 포함되어 있으며 감독 된 데이터는 슬롯 충전물을 개선합니다.
Tacred DataSet : TAC 관계 추출 데이터 세트에 대한 세부 사항은이 데이터 세트 웹 사이트에서 찾을 수 있습니다.
먼저 Stanford 웹 사이트에서 다음과 같이 다운로드 및 분리 된 장갑 벡터를 다운로드합니다.
chmod +x download.sh; ./download.sh
그런 다음 다음과 함께 어휘 및 초기 단어 벡터를 준비하십시오.
python prepare_vocab.py dataset/tacred dataset/vocab --glove_dir dataset/glove
이것은 DIR dataset/vocab 에 Numpy Matrix로 어휘와 단어 벡터를 작성합니다.
다음과 함께 위치 인식주의 RNN 모델을 훈련시킵니다.
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --id 00 --info "Position-aware attention model"
--topn N 사용하여 상단 N 단어 벡터 만 미세 조정하십시오. 스크립트는 전처리를 자동으로 수행합니다 (단어 드롭 아웃, 엔티티 마스킹 등).
LSTM 모델을 다음과 같이 훈련시킵니다.
python train.py --data_dir dataset/tacred --vocab_dir dataset/vocab --no-attn --id 01 --info "LSTM model"
모델 체크 포인트 및 로그는 ./saved_models/00 으로 저장됩니다.
테스트 세트에서 평가를 실행하십시오.
python eval.py saved_models/00 --dataset test
기본적으로 best_model.pt 사용합니다. 모델 체크 포인트 파일을 지정하려면 --model checkpoint_epoch_10.pt 사용하십시오. --out saved_models/out/test1.pkl 추가하여 파일에 모델 확률 출력 (앙상블 등)을 작성하십시오.
예제 스크립트 ensemble.sh 참조하십시오 .SH.
이 패키지에 포함 된 모든 작업은 Apache 라이센스 버전 2.0에 따라 라이센스가 부여됩니다. 포함 된 라이센스 파일을 참조하십시오.