การใช้ Pytorch ของแบบจำลองภาษาพื้นฐานโดยใช้ความสนใจในเครือข่าย LSTM
ที่เก็บนี้มีรหัสสำหรับแบบจำลองภาษาพื้นฐานเพื่อทำนายคำถัดไปที่กำหนดบริบท สถาปัตยกรรมเครือข่ายที่ใช้คือเครือข่าย LSTM ด้วยความสนใจ ความยาวประโยคสามารถแปรผันได้และสิ่งนี้ได้รับการดูแลโดยการขยายขั้นตอนเพิ่มเติมในลำดับ แบบจำลองได้รับการฝึกฝนโดยใช้ข้อความจากหนังสือ The Mercer Boys at Woodcrest โดย Capwell Wyckoff มีให้ที่ http://www.gutenberg.org ebook หรือ txt อื่น ๆ จากแหล่งอื่น ๆ สามารถใช้สำหรับการฝึกอบรมเครือข่าย
ที่เก็บนี้เข้ากันได้กับ Python 2
nltk ซึ่งสามารถติดตั้งได้โดยใช้ PIP ดาวน์โหลด ebook ใด ๆ ที่มีอยู่ที่ http://www.gutenberg.org ในรูปแบบ . .txt สร้าง data ไดเรกทอรีใหม่และจัดเก็บไฟล์ TXT ไว้ในนั้น สามารถใช้แหล่งข้อความอื่น ๆ ได้
ไฟล์ TXT นั้นถูกประมวลผลล่วงหน้าก่อนเพื่อลบโทเค็นที่ไม่ต้องการบางส่วนตัวกรองไม่ค่อยใช้คำและแปลงเป็นรูปแบบพจนานุกรม นอกจากนี้ยังมีการโหลดถุงมือฝังด้วย
ในการสร้างพจนานุกรมให้ใช้สคริปต์ preprocess_data/create_dictionary.py
python create_dictionary.py --data_path path_to_txt_file --dict_file dict_file_name.json --min_occ minimum_occurance_required
ในการสร้างพจนานุกรม Glove ให้ดาวน์โหลดไฟล์ถุงมือดั้งเดิมและเรียกใช้สคริปต์ preprocess_data/create_gloves.py
wget http://nlp.stanford.edu/data/glove.42B.300d.zip -P data/
unzip data/glove.42B.300d.zip -d data/
python preprocess_data/create_gloves.py --data_path path_to_txt_file --glove_in data/glove.42B.300d.txt --glove_out data/glove_dict.pkl
หากมีปัญหาในการดาวน์โหลดโดยใช้สคริปต์ไฟล์ถุงมือสามารถดาวน์โหลดได้จากที่นี่
ในการฝึกอบรมแบบจำลองให้เรียกใช้สคริปต์ต่อไปนี้
python main.py --gpu gpu_id_to_use --use_cuda True --data_path path_to_txt_file --glove_path data/glove_dict.pkl --dict_path path_to_dict_file
พารามิเตอร์อื่น ๆ ที่จะใช้มีการระบุไว้ใน main.py อ้างถึงเพื่อความเข้าใจที่ดีขึ้น
รุ่นที่บันทึกไว้มีอยู่ที่นี่