Kevinpro-NLP-Demo
بعض التنفيذ البسيط لخوارزمية NLP المرح في Pytorch. تحديث والحفاظ على
إذا كان لديك أي سؤال ، يرجى التعليق في الإصدار
إذا كان المشروع يساعدك ، مرحبًا بالنجمة ~ (من فضلك لا تافهة فقط بدون نجمة (´ ・ ω ・ `))
الانتباه: قد يكون الجزء من الكود في هذا المستودع من المواد المفتوحة الأخرى ، فقط لمصلحتي وتجربتي. قد تحتوي على الأخطاء والإشارات إلى رمز الآخرين.
中文版本 readme
المحتوى الرئيسي
يمكنك الذهاب إلى كل مجلد للمشروع لمزيد من التفاصيل في المجلد readme.md داخل ،
- تصنيف النص على أساس العديد من النماذج (BILSTM ، المحول) اذهب هنا
- الجيل الموجز (شبكة مولد المؤشر) اذهب هنا
- ترجمة الحوار (SEQ2Seq) لبناء الحوار الخاص بك ~~ اذهب هنا
- استخدم GNN في تصنيف النص اذهب هنا
- نموذج لغة قناع المحول قبل أن يتنقل هنا
- GPT لتوليد النص و GPT لمشكلة الرياضيات Go Heresource Repo
- تدريب الخصومة (FGM) اذهب هنا
- الاستخدام/النشر السريع للغاية والسريع من SEQ2SEQ-transformer. بما في ذلك العديد من eamples (Denoise Pretrain ، فإن الإسبع الطبي يذهب هنا
- الاستخدام العملي لـ pytorch_lighting اذهب هنا
- تدريب AMP و FP16 لـ Pytorch يذهب هنا
- تصور مجموعة أدوات مفيدة لخريطة الانتباه (أو غيرها من المصفوفة المرجحة ، اذهب هنا
- نماذج الانتشار تنفذ وتطبيق على الموضة ، اذهب هنا
- طعم بسيط للتعلم المستقر (المبنى) اذهب هنا
- طعم بسيط للتعلم التعريفي (المبنى) اذهب هنا
- العرض التوضيحي البسيط لاستدلال طراز Langauge الكبير ، اذهب هنا
مشاريع بلدي الأخرى مفتوحة المصدر NLP
- بيرت في استخراج العلاقة : ricardokevins/bert-in-relation-extraction: 使用 bert 完成实体之间关系抽取 (github.com)
- مطابقة النص : Ricardokevins/text_matching: NLP2020 中兴捧月句子相似度匹配(github.com)
- Transformer تنفيذ ومجموعة أدوات NLP مفيدة : Ricardokevins/EasyTransformer: بداية سريعة مع خط الأساس القوي من Bert و Transformer بدون pretrain (github.com)
ما الجديد ~~
2023.3.27
- تحديث العرض التوضيحي البسيط حول عملية الاستدلال لنموذج اللغة الكبيرة. سيتم تحديث المزيد في المستقبل.
2022.8.31
- تحديث لنموذج الانتشار. نعتمد الرمز من البرنامج التعليمي وقمنا ببعض التغييرات اللازمة على الكود لجعله يعمل محليًا. يمكن العثور على نموذج التدريب العملي ونتائج الاستدلال في مجلد الانتشار/النتيجة.
2022.3.25
- بفضل قضية @rattlesnakey (المزيد من تفاصيل المناقشة هنا). أضيف ميزة في مشروع ما قبل الأثرياء. اضبط وزن الاهتمام للقناع على الصفر لمنع تراجع القناع ذاتيا بعضها البعض. يمكنك تمكين هذه الميزة في Transformer.py عن طريق تعيين "self.pretrain = true". ملاحظة: لم يتم التحقق من الميزة الجديدة في الوقت الحالي ، ولم يتم التحقق من التأثير على التدريب المسبق. سأملأ الاختبارات لاحقًا
2022.1.28
- إعادة بناء بنية الكود في المحول. جعل الكود أسهل في الاستخدام والنشر
- أضف أمثلة: Denoise-Pretrain في Transformer (سهل الاستخدام)
2022.1.16
- تحديث استخدم محول SEQ2Seq لنمذجة مهمة ضمان الجودة الطبية (TUING على 55 واط من بيانات QA الطبية الصينية) مزيد من التفاصيل التي يمكن رؤيتها في ReadMe.md of transformer/medqademo/
- قم بتحديث مدرب جديد وأدوات مفيدة
- قم بإزالة التنفيذ السابق للمحول (مع بعض الأخطاء غير القابلة للإثارة)
تحديث السجل
2021.1.23
- 初次 الالتزام 添加句子分类模块 , 包含 المحول 和 bilstm 以及 bilstm+attn 模型
- 上传基本数据集 , 句子二分类作为 التجريبي 例子
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西 .... 略
2021.6.22
- 修复了 تصنيف النص 的一些整理问题
- 增加了 تصنيف النص 对应的使用说明
2021.7.2
- 增加了 MLM 预训练技术实践
- 修复了句子分类模型里 , 过分大且不必要的 كلمة تضمين (因为太懒 , 所以只修改了 المحول 的 的
- 在句子分类里增加了加载预训练的可选项
- bug
2021.7.11
- 增加了 gnn 在 nlp 中的应用
- 实现了 gnn 在文本分类上的使用
- 效果不好 , 暂时怀疑是数据处理的问题
2021.7.29
- 增加了 chi+tfidf 传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了 readme
2021.8.2
- 重构了对话机器人模型于 seq2seq 文件夹
- 实现了 Bamsearch 解码方式
- pgn pgn 里的 علة Bamsearch
2021.9.11
- 添加了 GPT 在文本续写和数学题问题的解决 (偷了 偷了 karpathy/mingpt: إعادة تنفيذ الحد الأدنى من pytorch من التدريب Openai GPT (المحول المسبق التوليدي) (github.com) 代码实现的很好 , 对理解 gpt 很有帮助 , 偷过来看看能不能用在好玩的东西 偷过来看看能不能用在好玩的东西 偷过来看看能不能用在好玩的东西 偷过来看看能不能用在好玩的东西
- 重构了 شبكة مولد المؤشر , 之前的表现一直不好 , 打算干脆重构 一行一行的重新捋一遍 , 感觉会安心很多。施工 感觉会安心很多。施工 感觉会安心很多。施工。。
2021.9.16
- 修复了 الرمز المميز القناع presrain 里 未对齐 , 位置不一致问题
2021.9.29
- 在 المحول 里增加了一个随机数字串恢复的 التجريبي , 对新手理解 المحول 超友好 , 不需要外部数据 , 利用随机构造的数字串训练
- transfomervae , bug , 施工中
2021.11.20
- تحديث خوارزمية BM25 و TF-IDF للمطابقة السريعة للنص.
2021.12.10
- تحديث الاستخدام العملي لـ Pytorch_lighting ، استخدم text_classification كمثال. تحويل Pytorch إلى Lightninglite. مزيد من التفاصيل في LightingMain.py。
- قم بإزالة الكود الزائد
2021.12.9
- تحديث الاستخدام العملي لـ AMP (الدقة المختلطة التلقائية). تنفيذ في VaeGenerator ، واختبار على MX150 المحلي ، وتحسين وقت التدريب والاستخدام في استخدام الذاكرة ، ومزيد من التفاصيل في التعليقات في نهاية الرمز
- استنادًا إلى أمر AMP ، قام بتعديل تعريف 1e-9 إلى INF في model.py
2021.12.17
- تحديث مصفوفة مرجحة تصور مجموعة الأدوات (على سبيل المثال ، تستخدم لتصور خريطة الانتباه) في التصور. مجموعة أدوات أكثر فائدة في المستقبل
- تحديث معايير رمز التعليق Python. سيتم اتباع المزيد من ممارسات التعليمات البرمجية الرسمية في المستقبل.
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
الدقة المختلطة التلقائية (AMP)
https://featurize.cn/notebooks/368cbc81-2b27-4036-98a1-d77589b1f0c4