ดาวน์โหลด transformer pointer generator - ดาวน์โหลดซอร์สโค้ด transformer pointer generator

transformer pointer generator

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

การสรุปการสรุปแบบนามธรรมกับ Transformer และ Pointer-Generator

เมื่อฉันต้องการสรุปโดย Neural Network ฉันพยายามหลายวิธีในการสร้างบทสรุปเชิงนามธรรม แต่ผลลัพธ์ก็ไม่ดี เมื่อฉันได้ยิน 2018 Byte Cup ฉันพบข้อมูลบางอย่างเกี่ยวกับเรื่องนี้และโซลูชันของแชมป์ดึงดูดฉัน แต่ฉันพบเว็บไซต์บางแห่งเช่น GitHub Gitlab ฉันไม่พบรหัสอย่างเป็นทางการดังนั้นฉันจึงตัดสินใจใช้มัน

ความต้องการ

Python == 3.x (ไปที่ Python 3 ถ้าคุณยังใช้ Python 2)
tensorflow == 1.12.0
tqdm> = 4.28.1
jieba> = 0.3x
sumeval> = 0.2.0

โครงสร้างแบบจำลอง

ซึ่งเป็นรากฐาน

โมเดลของฉันขึ้นอยู่กับความสนใจคือสิ่งที่คุณต้องการและไปถึงจุด: การสรุปด้วยเครือข่ายตัวชี้

เปลี่ยน

โมเดลตัวชี้วัดมีกลไกสองกลไกซึ่งเป็น กลไกการคัดลอก และ กลไกการครอบคลุม ฉันพบวัสดุบางอย่างพวกเขาแสดงกลไกการครอบคลุมไม่เหมาะกับการสรุปสั้น ๆ ดังนั้นฉันไม่ได้ใช้กลไกนี้เพียงแค่ใช้กลไกแรก
โมเดลตัวชี้ตัวชี้มีความไม่เพียงพอซึ่งสามารถปล่อยให้การสูญเสียได้รับน่านฉันลองบางครั้งและต้องการแก้ไข แต่ผลลัพธ์ก็คือฉันไม่สามารถทำได้ฉันคิดว่าเหตุผลคือเมื่อคำนวณนักลอจิ้ตสุดท้าย ดังนั้นฉันจึงลบกลไกของการขยายนักลอจิสต์ขั้นสุดท้ายเพียงแค่ใช้กลไกของ deocode จากบทความและคำศัพท์ มีรายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ในรุ่นนี้ฉันแค่ใช้คำมากกว่าคำศัพท์ความคิดนี้มาจากเบิร์ต

โครงสร้าง

การฝึกอบรม

ขั้นตอนที่ 1. ดาวน์โหลดชุดข้อมูล PWD คือ AYN6, ชุดข้อมูลคือ LCSTs โดยประมวลผลล่วงหน้าดังนั้นคุณจะเห็นโครงสร้างชุดข้อมูลที่แตกต่างกันมากกับ LCSTs ในไฟล์แต่ละบรรทัด เป็น นามธรรมและบทความ
ขั้นตอนที่ 2. เรียกใช้คำสั่งต่อไปนี้

 python train.py

ตรวจสอบ hparams.py เพื่อดูว่าพารามิเตอร์ใดเป็นไปได้ ตัวอย่างเช่น,

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval

รหัสของฉันยังปรับปรุง Multi GPU เพื่อฝึกอบรมรุ่นนี้หากคุณมี GPU มากกว่าหนึ่งตัวเพียงแค่เรียกใช้เช่นนี้

 python train.py --logdir myLog --batch_size 32 --train myTrain --eval myEval --gpu_nums=myGPUNums

ชื่อ	พิมพ์	รายละเอียด
คำศัพท์	int	ขนาดคำศัพท์
รถไฟ	str	ชุดข้อมูลฝึกอบรม DIR
การประเมิน	str	ชุดข้อมูล eval
ทดสอบ	str	ข้อมูลสำหรับการคำนวณคะแนน Rouge
คำศัพท์	str	เส้นทางไฟล์คำศัพท์
batch_size	int	ขนาดแบทช์รถไฟ
eval_batch_size	int	ขนาดแบทช์ประเมิน
LR	ลอย	อัตราการเรียนรู้
warmup_steps	int	ขั้นตอนการอุ่นเครื่องโดยอัตราการเรียนรู้
Logdir	str	ไดเรกทอรีบันทึก
num_epochs	int	จำนวนยุครถไฟ
ผู้มีชื่อเสียง	str	การประเมินผล DIR
d_model	int	มิติที่ซ่อนอยู่ของ encoder/decoder
D_FF	int	มิติที่ซ่อนอยู่ของเลเยอร์ Feedforward
num_blocks	int	จำนวนบล็อก encoder/decoder
num_heads	int	จำนวนหัวความสนใจ
Maxlen1	int	ความยาวสูงสุดของลำดับแหล่ง
Maxlen2	int	ความยาวสูงสุดของลำดับเป้าหมาย
DROPOUT_RATE	ลอย	อัตราการออกกลางคัน
beam_size	int	ขนาดลำแสงสำหรับการถอดรหัส
gpu_nums	int	จำนวน GPU ซึ่งสามารถอนุญาตให้จำนวน GPU ฝึกอบรมรุ่นนี้， ค่าเริ่มต้น 1