การดาวน์โหลด practical 1 - การดาวน์โหลดซอร์สโค้ด practical 1

practical 1

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ภาคปฏิบัติ 1: Word2vec

[Brendan Shillingford, Yannis Assael, Chris Dyer]

สำหรับการปฏิบัตินี้คุณจะได้รับสมุดบันทึก Ipython ที่สมบูรณ์บางส่วนซึ่งเป็นสภาพแวดล้อมการคำนวณ Python บนเว็บแบบโต้ตอบที่ช่วยให้เราสามารถผสมข้อความรหัสและแปลงแบบโต้ตอบ

เราจะได้รับการฝึกอบรมโมเดล Word2vec ในข้อมูล TED Talk และ Wikipedia โดยใช้การใช้งาน Word2vec ที่รวมอยู่ในแพ็คเกจ Python gensim หลังจากฝึกอบรมแบบจำลองเราจะวิเคราะห์และแสดงภาพการฝังตัวที่เรียนรู้

การตั้งค่าและการติดตั้ง

บนเวิร์กสเตชันห้องปฏิบัติการโคลนที่เก็บที่ใช้งานได้จริงและเรียก . install-python.sh เชลล์สคริปต์ในเทอร์มินัลเพื่อติดตั้ง Anaconda ด้วย Python 3 และแพ็คเกจที่จำเป็นสำหรับการใช้งานจริง

เรียกใช้ ipython notebook ในไดเรกทอรีที่เก็บและเปิดสมุดบันทึก practical.ipynb ในเบราว์เซอร์ของคุณ

รอบคัดเลือก

การประมวลผลล่วงหน้า

รหัสสำหรับการดาวน์โหลดชุดข้อมูลและการประมวลผลล่วงหน้าเป็นการเขียนล่วงหน้าเพื่อประหยัดเวลา อย่างไรก็ตามคาดว่าคุณจะต้องทำงานดังกล่าวในการปฏิบัติในอนาคตโดยให้ข้อมูลดิบ อ่านและตรวจสอบให้แน่ใจว่าคุณเข้าใจ บ่อยครั้งที่หนึ่งใช้ไลบรารีเช่น nltk เพื่อทำให้งานนี้ง่ายขึ้น แต่เรายังไม่ได้ทำที่นี่และเลือกที่จะใช้นิพจน์ทั่วไปผ่านโมดูล re ของ Python

ความถี่คำ

ทำรายการคำที่พบบ่อยที่สุดและจำนวนการเกิดขึ้นของพวกเขา ลองดูที่ 40 คำบน คุณอาจต้องการใช้ sklearn.feature_extraction.text Module Module ของคลาส CountVectorizer หรือคลาส Counter ของโมดูล collections

ใช้คำ 1,000 คำบนและพล็อตฮิสโตแกรมของจำนวนของพวกเขา รหัสการพล็อตสำหรับฮิสโตแกรมแบบโต้ตอบได้รับในสมุดบันทึกแล้ว

Handin: แสดงฮิสโตแกรมการกระจายความถี่

การฝึกอบรม Word2Vec

ตอนนี้เรามีรายการประโยคที่ประมวลผลแล้วมาฝึกอบรม Word2vec เริ่มต้นด้วยการอ่านเอกสาร Gensim สำหรับ Word2vec ที่ https://radimrehurek.com/gensim/models/word2vec.html เพื่อหาวิธีใช้คลาส Word2Vec เรียนรู้การฝังใน $ mathbb r^{100} $ การใช้ CBOW (ซึ่งเป็นค่าเริ่มต้น) ตัวเลือกอื่น ๆ ควรเป็นค่าเริ่มต้นยกเว้น min_count=10 เพื่อให้คำไม่บ่อยถูกละเว้น กระบวนการฝึกอบรมควรใช้เวลาไม่ถึงครึ่งนาที

หากอินสแตนซ์ Word2Vec ที่ผ่านการฝึกอบรมของคุณเรียกว่า model_ted คุณควรจะสามารถตรวจสอบขนาดคำศัพท์โดยใช้ len(model_ted.vocab) ซึ่งควรจะอยู่ที่ประมาณ 14427 ลองใช้วิธี most_similar() เพื่อส่งคืนรายการคำที่คล้ายกันมากที่สุดกับ "man" และ "คอมพิวเตอร์"

HANDIN: ค้นหาคำอีกสองสามคำที่น่าสนใจและ/หรือน่าประหลาดใจเพื่อนบ้านที่ใกล้ที่สุด

HANDIN: ค้นหาคลัสเตอร์ที่น่าสนใจในพล็อต T-SNE

ทางเลือกสำหรับนักเรียนที่กระตือรือร้น: ลองดึงเวกเตอร์สองคำด้วยตนเองโดยใช้ตัวดำเนินการจัดทำดัชนีตามที่อธิบายไว้ในเอกสารของ Gensim จากนั้นคอมพิวเตอร์ระยะทางโคไซน์ของพวกเขา (จำได้ว่ามันถูกกำหนดเป็น $ d (x, y) = frac { langle x, y rangle} {| x || y |} $ - คุณอาจสนใจ np.dot() และ np.linalg.norm() ดูเอกสาร NumPy สำหรับรายละเอียด เปรียบเทียบสิ่งนี้กับระยะทางที่คำนวณโดยฟังก์ชั่นของ Gensim

เปรียบเทียบกับเวกเตอร์ที่ผ่านการฝึกอบรมเกี่ยวกับข้อมูล Wikitext-2

เราได้ให้รหัสการดาวน์โหลด/ประมวลผลล่วงหน้า (คล้ายกับรหัสก่อนหน้า) สำหรับชุดข้อมูล Wikitext-2 รหัสใช้ตัวอย่างย่อยแบบสุ่มของข้อมูลดังนั้นจึงเทียบได้กับขนาดกับข้อมูล TED Talk

ทำซ้ำการวิเคราะห์เดียวกันข้างต้น แต่ในชุดข้อมูลนี้

HANDIN: ค้นหาคำสองสามคำที่มีเพื่อนบ้านที่ใกล้ที่สุดใกล้เคียงกัน

HANDIN: ค้นหาคลัสเตอร์ที่น่าสนใจในพล็อต T-SNE

HANDIN: มีความแตกต่างที่น่าสังเกตระหว่างการฝังข้อมูลที่เรียนรู้จากข้อมูลเมื่อเทียบกับที่เรียนรู้เกี่ยวกับข้อมูล TED Talk หรือไม่?

(เป็นทางเลือกสำหรับนักเรียนที่กระตือรือร้น) การจัดกลุ่ม

หากคุณมีเวลาเพิ่มเติมลองดำเนินการจัดกลุ่ม k-mean (เช่นการใช้ sklearn.cluster.kmeans ) บน embeddings ปรับจำนวนกลุ่มจนกว่าคุณจะได้รับกลุ่มที่น่าสนใจหรือมีความหมาย