Kevinpro-NLP-Demo
การใช้อัลกอริทึม NLP ที่สนุกง่าย ๆ ใน Pytorch อัปเดตและบำรุงรักษา
หากคุณมีคำถามใด ๆ โปรดแสดงความคิดเห็นในปัญหา
หากโครงการช่วยคุณได้ยินดีต้อนรับดาว ~ (โปรดอย่าส้อมโดยไม่มีดาว (´・ ω ・ `))
ความสนใจ: ส่วนหนึ่งของรหัสในที่เก็บนี้อาจมาจากวัสดุโอเพ่นซอร์สอื่น ๆ เพื่อความสนใจและการทดลองของฉันเอง อาจมีข้อบกพร่องและการอ้างอิงถึงรหัสของคนอื่น
中文版本 readme
เนื้อหาหลัก
คุณสามารถเข้าไปในแต่ละโฟลเดอร์โครงการสำหรับรายละเอียดเพิ่มเติมใน Folder's Readme.md ภายใน
- การจำแนกประเภทข้อความขึ้นอยู่กับหลายรุ่น (bilstm, transformer) ไปที่นี่
- การสร้างสรุป (เครือข่ายตัวสร้างตัวชี้) ไปที่นี่
- บทสนทนาการแปล (seq2seq) เพื่อสร้าง DialogueBot ของคุณเอง ~~ ไปที่นี่
- ใช้ GNN ในการจำแนกประเภทข้อความไปที่นี่
- รูปแบบภาษาหน้ากากหม้อแปลงมาก่อนไปที่นี่
- GPT สำหรับการสร้างข้อความและ GPT สำหรับปัญหาทางคณิตศาสตร์ไปทางพันธุกรรม repo
- การฝึกอบรมฝ่ายตรงข้าม (FGM) ไปที่นี่
- ใช้งานง่ายและรวดเร็วมากและปรับใช้ SEQ2SEQ-TRANSFORMER รวมถึง amples หลาย (denoise pretrain, การแพทย์แคว้นการเดินเรือไปที่นี่
- การใช้งานจริงของ pytorch_lighting ไปที่นี่
- การฝึกอบรม AMP และ FP16 สำหรับ Pytorch ไปที่นี่
- ชุดเครื่องมือที่เป็นประโยชน์สำหรับแผนที่ความสนใจ (หรือเมทริกซ์ถ่วงน้ำหนักอื่น ๆ ไปที่นี่
- โมเดลการแพร่กระจายและแอปพลิเคชันบนแฟชั่น Mnist ไปที่นี่
- รสชาติง่าย ๆ ของการเรียนรู้ที่มั่นคง (อาคาร) ไปที่นี่
- รสชาติง่าย ๆ ของการเรียนรู้เมตา (อาคาร) ไปที่นี่
- การสาธิตแบบง่าย ๆ ของการอนุมานแบบจำลอง Langauge ขนาดใหญ่ไปที่นี่
โครงการ NLP โอเพ่นซอร์สอื่น ๆ ของฉัน
- การสกัดแบบเบิร์ตในความสัมพันธ์ : Ricardokevins/bert-in-relation-extraction: 使用 bert 完成实体之间关系抽取 (github.com)
- การจับคู่ข้อความ : Ricardokevins/text_matching: NLP2020 中兴捧月句子相似度匹配 (github.com)
- การใช้งานหม้อแปลงและชุดเครื่องมือ NLP ที่มีประโยชน์ : Ricardokevins/EasyTransformer: เริ่มต้นอย่างรวดเร็วด้วยพื้นฐานที่แข็งแกร่งของ Bert และ Transformer โดยไม่ต้อง pretrain (github.com)
มีอะไรใหม่ ~~
2023.3.27
- อัปเดตการสาธิตอย่างง่ายเกี่ยวกับกระบวนการอนุมานของรูปแบบภาษาขนาดใหญ่ จะอัปเดตเพิ่มเติมในอนาคต
2022.8.31
- อัปเดตสำหรับรูปแบบการแพร่กระจาย เราใช้รหัสจากการสอนและทำการเปลี่ยนแปลงที่จำเป็นบางอย่างในรหัสเพื่อให้ทำงานได้ในพื้นที่ รูปแบบการฝึกอบรมเชิงปฏิบัติและผลการอนุมานสามารถพบได้ในโฟลเดอร์การแพร่กระจาย/ผลลัพธ์ 2
2022.3.25
- ขอบคุณปัญหาของ @Rattlesnakey (รายละเอียดการอภิปรายเพิ่มเติมที่นี่) ฉันเพิ่มคุณสมบัติในโครงการ Pretrain ตั้งค่าน้ำหนักความสนใจของหน้ากาก token เป็นศูนย์เพื่อป้องกันไม่ให้หน้ากาก-Tokens การดูแลตัวเองซึ่งกันและกัน คุณสามารถเปิดใช้งานคุณสมบัตินี้ใน transformer.py โดยการตั้งค่า "self.pretrain = true" PS: คุณสมบัติใหม่ยังไม่ได้รับการตรวจสอบในขณะนี้และผลกระทบต่อการฝึกอบรมก่อนการฝึกอบรมยังไม่ได้รับการตรวจสอบ ฉันจะกรอกแบบทดสอบในภายหลัง
2022.1.28
- สร้างโครงสร้างรหัสใหม่ในหม้อแปลง ทำให้รหัสใช้งานง่ายขึ้นและปรับใช้
- เพิ่มตัวอย่าง: denoise-pretrain ในหม้อแปลง (ใช้งานง่าย)
2022.1.16
- อัปเดตการใช้หม้อแปลง SEQ2SEQ เพื่อสร้างแบบจำลองงาน QA Medical QA (ใช้ข้อมูล QA การแพทย์จีน 55W คู่) รายละเอียดเพิ่มเติมที่จะเห็นใน ReadMe.MD ของหม้อแปลง/Medqademo/
- อัปเดตเทรนเนอร์ใหม่และเครื่องมือที่มีประโยชน์
- ลบการใช้งานก่อนหน้าของหม้อแปลง (พร้อมข้อบกพร่องที่ไม่สามารถแก้ไขได้)
อัปเดตประวัติ
2021.1.23
- 初次กระทำ添加句子分类模块, 包含หม้อแปลง和 bilstm 以及 bilstm+attn 模型
- 上传基本数据集, 句子二分类作为การสาธิต例子
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西 .... 略
2021.6.22
- 修复了การจำแนกประเภทข้อความ的一些整理问题
- 增加了การจำแนกประเภทข้อความ对应的使用说明
2021.7.2
- 增加了 mlm 预训练技术实践
- 修复了句子分类模型里, 过分大且不必要的คำที่ฝังอยู่ (因为太懒, 所以只修改了 transformer 的)))
- 在句子分类里增加了加载预训练的可选项
- 修复了一些บั๊ก
2021.7.11
- 增加了 gnn 在 nlp 中的应用
- 实现了 gnn 在文本分类上的使用
- 效果不好, 暂时怀疑是数据处理的问题
2021.7.29
- 增加了 chi+tfidf 传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了 readme
2021.8.2
- 重构了对话机器人模型于 seq2seq 文件夹
- 实现了 Beamsearch 解码方式
- 修复了 pgn 里的บั๊กค้นหาคาน
2021.9.11
- 添加了 GPT 在文本续写和数学题问题的解决(偷了 Karpathy/Mingpt: การใช้ pytorch ที่น้อยที่สุดของการฝึกอบรม OpenAI GPT (หม้อแปลงที่ผ่านการฝึกอบรมเกี่ยวกับการกำเนิด) (github.com) 代码实现的很好, 对理解 gpt 很有帮助, 偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西偷过来看看能不能用在好玩的东西
- 重构了เครือข่ายเครื่องกำเนิดตัวชี้,, 打算干脆重构,, 一行一行的重新捋一遍, 感觉会安心很多。施工 ing 。
2021.9.16
- 修复了 pretrain 里หน้ากากโทเค็น未对齐, 位置不一致问题位置不一致问题
2021.9.29
- 在หม้อแปลง里增加了一个随机数字串恢复的การสาธิต, transformer 超友好, 不需要外部数据, 利用随机构造的数字串训练利用随机构造的数字串训练
- 新增实验 transfomervae, bug, 施工中
2021.11.20
- อัปเดตอัลกอริทึม BM25 และ TF-IDF เพื่อการจับคู่ข้อความอย่างรวดเร็ว
2021.12.10
- อัปเดตการใช้งานจริงของ pytorch_lighting ใช้ text_classification เป็นตัวอย่าง แปลง pytorch เป็น Lightninglite รายละเอียดเพิ่มเติมใน LightingMain.py 。
- ลบรหัสซ้ำซ้อน
2021.12.9
- อัปเดตการใช้งานแอมป์ (ความแม่นยำผสมอัตโนมัติ) นำไปใช้ใน VaeGenerator ทดสอบเกี่ยวกับ MX150 ในพื้นที่มีความสำคัญปรับปรุงเวลาการฝึกอบรมและการใช้หน่วยความจำรายละเอียดเพิ่มเติมในความคิดเห็นในตอนท้ายของรหัส
- ตามคำสั่งของแอมป์แก้ไขคำจำกัดความของ 1e-9 ถึง inf ใน model.py
2021.12.17
- อัปเดตชุดเครื่องมือ Matrix ที่มีน้ำหนัก (เช่นใช้สำหรับการแสดงภาพแผนที่ความสนใจ) นำไปใช้ในการแสดงภาพ ชุดเครื่องมือที่มีประโยชน์มากขึ้นในอนาคต
- อัปเดตมาตรฐานรหัสความคิดเห็น Python จะมีการปฏิบัติตามรหัสที่เป็นทางการมากขึ้นในอนาคต
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
ความแม่นยำผสมอัตโนมัติ (แอมป์)
https://featurize.cn/notebooks/368CBC81-2B27-4036-98A1-D77589B1F0C4