ดาวน์โหลด Vaaku2Vec - ดาวน์โหลดซอร์สโค้ด Vaaku2Vec

Vaaku2Vec

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

vaaku2vec

การสร้างแบบจำลองภาษาที่ทันสมัยและการจำแนกประเภทข้อความในภาษามาลายาลัม

ผลลัพธ์

เราฝึกอบรมรูปแบบภาษามาลายาลัมในบทความ Wikipedia Dump จากตุลาคม 2018 การถ่ายโอนข้อมูลวิกิพีเดียมีบทความ 55K+ ความแตกต่างในการฝึกอบรมรูปแบบภาษามาลายาลัมคือ การทำให้เป็นโทเค็นข้อความ เนื่องจากมาลายาลัมเป็นภาษาที่มีความผันแปรและมีการรวมตัวกันอย่างมาก ในรุ่นปัจจุบันเราใช้ nltk tokenizer (จะพยายามทางเลือกที่ดีกว่าในอนาคต) และขนาดคำศัพท์คือ 30k รูปแบบภาษาถูกใช้เพื่อฝึกอบรมตัวจําแนกซึ่งจำแนกข่าวออกเป็น 5 หมวดหมู่ (อินเดีย, Kerala, กีฬา, ธุรกิจ, ความบันเทิง) ตัวจําแนกของเราออกมาพร้อมกับความแม่นยำ 92% ในงานการจำแนกประเภท

ปล่อย

Wikipedia ทิ้งบทความแยกออกเป็นแบบทดสอบและรถไฟ
สคริปต์และน้ำหนักสำหรับโมเดลภาษามาลายาลัม
ตัวจําแนกข้อความมาลายาลัมที่มีน้ำหนักที่ได้รับการแก้ไข
รหัสอนุมานสำหรับตัวจําแนกข้อความ

การดาวน์โหลด

รูปแบบภาษามาลายาลัมก่อน
ตัวจําแนกข่าวมาลายาลัมก่อนหน้านี้ - เพื่อดำเนินการทำนายเท่านั้นใช้สิ่งนี้
บทความดิบดาต้าของมาลายาลัมวิกิพีเดีย: บทความมาลายาลัม

ความต้องการ

การติดตั้งการอ้างอิง

Python3.6> =

หากคุณใช้ VirtualEnVwrapper ให้ใช้ขั้นตอนต่อไปนี้:

git clone https://github.com/adamshamsudeen/Vaaku2Vec.git
mkvirtualenv -p python3.6 venv
workon venv
cd Vaaku2Vec
pip install -r requirements.txt

การใช้งาน

รูปแบบภาษาการฝึกอบรมพร้อมข้อมูลที่ประมวลผลล่วงหน้า:

ดาวน์โหลดโฟลเดอร์ Model Language ที่ผ่านการฝึกฝนไว้ซึ่งมีการทดสอบล่วงหน้าและฝึกอบรม CSV หากคุณต้องการ preproccess และฝึก LM โดยใช้บทความถ่ายโอนข้อมูลล่าสุดโดยใช้สคริปต์ที่ให้ไว้ที่นี่
สร้างโทเค็น:
python lm/create_toks.py <path_to_processed_wiki_dump>
เช่น: python lm/create_toks.py /home/adamshamsudeen/mal/Vaaku2Vec/wiki/ml/
สร้างโทเค็นเพื่อทำแผนที่ ID:
python lm/tok2id.py <path_to_processed_wiki_dump>
เช่น: python lm/tok2id.py /home/adamshamsudeen/mal/Vaaku2Vec/wiki/ml/
รูปแบบภาษารถไฟ:
python lm/pretrain_lm.py <path_to_processed_wiki_dump> 0 --lr 1e-3 --cl 40
eg: python lm/pretrain_lm.py /home/adamshamsudeen/mal/Vaaku2Vec/wiki/ml/ 0 --lr 1e-3 --cl 40
lr คืออัตราการเรียนรู้และ cl คือไม่มียุค

การฝึกอบรมตัวแยกประเภท:

ใช้ train_classifier.ipynb เพื่อฝึกอบรมตัวจําแนกข้อความมาลายาลัม
เรายังไม่ได้เปิดตัวชุดข้อมูลข่าวเพิ่มคำขอหากคุณต้องการทดสอบด้วยเดียวกัน

ทดสอบตัวจําแนก:

ในการทดสอบตัวจําแนกที่ได้รับการฝึกฝนเกี่ยวกับ Manorama News ให้ดาวน์โหลด Pretrained Malyalam Text Classifier ที่กล่าวถึงในการดาวน์โหลด
ใช้ prediction.ipynb และทดสอบอินพุตของคุณ

เราทดสอบแบบจำลองข่าวจากกระดาษข่าวชั้นนำอื่น ๆ ด้วยตนเองและโมเดลทำงานได้ค่อนข้างดี ผลลัพธ์

Word2vec:

นอกจากนี้เรายังได้รับการฝึกอบรมแบบจำลอง Word2vec โดยใช้ Gensim ด้วยการถ่ายโอนข้อมูลวิกิพีเดีย
คุณยังสามารถใช้โมเดล Word2vec เพื่อฝึกอบรมตัวจําแนกข้อความ ตัวแยกประเภทข่าว
คุณสามารถดูการสาธิต Word2vec ในลิงค์ด้านล่าง