การปรับแต่งและการสร้างข้อความอย่างละเอียดโดยใช้ GPT-2 ของ OpenAI บนชุดข้อมูลบล็อกจาก https://trustmeyourealive.wordpress.com/
content-extraction : การแยกข้อมูลบล็อกโดยใช้ WordPress API
dataset : รถไฟการตรวจสอบความถูกต้องชุดข้อมูลทดสอบจากเนื้อหาที่แยกออกมา
prepare_data.ipynb : เตรียมข้อมูลเป็นรถไฟที่ถูกต้องไฟล์ทดสอบ
text_generation.ipyb : ปรับแต่ง GPT-2 ในชุดรถไฟที่เตรียมไว้และการสร้างข้อความ
โทเค็นทั้งหมด: 246446 (76 บทความ)
คำศัพท์: 50260
ชุดฝึกอบรม (โดยบรรทัด): 2752
ไฟล์รหัสใน transformers ที่ต้องเปลี่ยนหลังจากการโคลนนิ่ง: run_generation.py และ run_language_modeling.py (คำแนะนำใน text_generation.ipynb)
ตรงไปตรงมาฉันอยู่ในความหวาดกลัว/ตกใจ - ลำดับเหล่านี้ฟังดูเหมือนฉันอย่างแท้จริงและฉันค่อนข้างโล่งใจ GPT -3 ยังไม่ได้รับแหล่งที่มา (ยัง):