transformer pointer generator 다운로드 - transformer pointer generator 소스 코드 다운로드

transformer pointer generator

기타 소스코드

1.0.0

다운로드

변압기 및 포인터 발전기를 사용한 추상적 요약 구현

Neural Network의 요약을 원할 때 추상 요약을 생성하는 여러 가지 방법을 시도했지만 결과는 좋지 않았습니다. 2018 바이트 컵을 들었을 때, 나는 그것에 대한 정보를 발견했고 챔피언의 솔루션이 저를 끌어 들였지만 Github Gitlab과 같은 일부 웹 사이트를 찾았으므로 공식 코드를 찾지 못했기 때문에 구현하기로 결정했습니다.

요구 사항

Python == 3.x (Python 2를 여전히 사용하는 경우 Python 3으로 이동합시다)
Tensorflow == 1.12.0
tqdm> = 4.28.1
Jieba> = 0.3x
Sumeval> = 0.2.0

모델 구조

기반을 둔

내 모델은주의를 기준으로해야합니다. 필요한 전부입니다.

변화

포인터-제너레이터 모델에는 복사 메커니즘 과 커버리지 메커니즘 인 두 가지 메커니즘이 있으며, 일부 재료를 발견했으며, 커버리지 메커니즘이 짧은 요약에 맞지 않기 때문에이 메커니즘을 사용하지 않았으며 첫 번째 메커니즘 만 사용합니다.
포인터 생성기 모델은 부적절 함이있어 손실을 얻지 못하게 할 수 있습니다. 어떤 시간을 시도하고 수정하고 싶었지만 결과는 내가 할 수 없었습니다. 그 이유는 최종 로그를 계산할 때 OOV와 어휘 길이로 확장 될 것입니다. 따라서 최종 로지 확장 메커니즘을 삭제하고 기사와 어휘의 Deocode 메커니즘을 사용합니다. 이 모델에서는 어휘보다 단어를 사용합니다.이 아이디어는 Bert에서 나온 것입니다.

구조

훈련

1 단계. 데이터 세트 다운로드, pwd, pwd는 ayn6입니다. 데이터 세트는 사전 처리 된 것에 의해 LCST입니다. 따라서 파일에 LCST가있는 매우 다른 데이터 세트 구조가 초록이되고 기사는 ",", "," , 데이터 세트의 양이 LCST와 동일하다는 것을 걱정하면 ",", ",", ",", ",", ",", ",", ",", "걱정하지 마십시오.
2 단계. 다음 명령을 실행하십시오.

 python train.py

어떤 매개 변수가 가능한지 확인하려면 hparams.py 확인하십시오. 예를 들어,

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

내 코드는 또한이 모델을 훈련시키기 위해 멀티 GPU를 개선합니다. GPU가 둘 이상인 경우 이렇게 실행하십시오.

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

이름	유형	세부 사항
vocab_size	int	어휘 크기
기차	str	기차 데이터 세트 dir
평가	str	평가 데이터 세트 dir
시험	str	Rouge 점수 계산 데이터
어휘	str	어휘 파일 경로
batch_size	int	배치 크기를 기차
eval_batch_size	int	배치 크기를 평가하십시오
LR	뜨다	학습 속도
Warmup_steps	int	러브 속도로 워밍업 단계
logdir	str	로그 디렉토리
num_epochs	int	기차 에포크의 수
에발 디르	str	평가 dir
d_model	int	인코더/디코더의 숨겨진 치수
d_ff	int	피드 포워드 레이어의 숨겨진 치수
num_blocks	int	인코더/디코더 블록 수
num_heads	int	주의 머리 수
maxlen1	int	소스 시퀀스의 최대 길이
maxlen2	int	대상 시퀀스의 최대 길이
dropout_rate	뜨다	탈락률
beam_size	int	디코드의 빔 크기
gpu_nums	int	GPU 금액,이 모델을 훈련시키는 GPU 수, 기본 1