คำอธิบายโครงการ
การใช้งานทั่วไปในฟิลด์ NLP นั้นรวมถึงการค้นพบคำใหม่รวมถึงคำว่าเวกเตอร์ตาม pytorch การจำแนกข้อความภาษาจีนการรับรู้เอนทิตีการสร้างข้อความการตัดสินความคล้ายคลึงกันของประโยคการสกัดสามแบบจำลองก่อนการฝึกอบรม ฯลฯ
พึ่งพา
python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2
สารบัญ
0. อัลกอริทึมการค้นพบคำใหม่
1. เวกเตอร์คำ
- 1-1. Word2vec (skip-gram)
- 1-2. ถุงมือ
2. การจำแนกประเภทข้อความ (Optuna ใช้เพื่อปรับพารามิเตอร์ภายใน)
- 2-1. ข้อความ
- 2-2. Fastext
- 2-3. textrcnn
- 2-4. textrnn_att
- 2-5. DPCNN
- 2-6. xgboost
- 2-7. Distill_ & Fine Tune Bert
- 2-8. รูปแบบการฝึกอบรมการใช้ MLM เพื่อจำแนกข้อความ
- 2-9. R-drop
ชุดข้อมูล (โฟลเดอร์ข้อมูล): ชุดข้อมูลความคิดเห็นสาธารณะแบบไบนารีแบ่งออกเป็นดังนี้:
| ชุดข้อมูล | ปริมาณข้อมูล |
|---|
| ชุดฝึกอบรม | 56700 |
| ชุดตรวจสอบ | 7000 |
| ชุดทดสอบ | 6300 |
3. การระบุเอนทิตี NER
- 3-1. Bert-MRC
- 3-2. bert-crf
- 3-3. Bert-Label-Semantics
- 3-4. Bert-MLM
4. การสร้างข้อความสรุป
1). สูตรรุ่น
- 4-1. รุ่น SEQ2SEQ
- 4-2. SEQ2SEQ MODEL + กลไกความสนใจ
- 4-3. โมเดลหม้อแปลง
- 4-4. การสร้างสรุป GPT
- 4-5. bert-seq2seq
2). การสกัด
- 4-6. bert-extractive-summarizer
5. การเลือกปฏิบัติที่คล้ายคลึงกันของประโยค
- 5-1. ความคล้ายคลึงกันของประโยค
6. การจำแนกประเภทหลายฉลาก
7. การสกัดสามครั้ง
8. รุ่นที่ผ่านการฝึกอบรมมาก่อน (Electra + Simcse)
9. เคล็ดลับในการเรียนรู้
10. PaperWithCode
โฟลเดอร์นี้บันทึกเอกสารบางส่วนและรหัสโมเดลที่เกี่ยวข้อง:
- 10.1. ผู้เปลี่ยนรูปแบบ
- 10.2. lattice_lstm
11. QA
โฟลเดอร์นี้บันทึกสรุปอย่างง่าย ๆ ของจุดความรู้บางอย่างของการเรียนรู้ของเครื่อง/การเรียนรู้อย่างลึกซึ้ง