Кевинпро-Нлп-Демо
Некоторое простое реализация веселого алгоритма НЛП в Pytorch. обновление и поддержание
Если у вас есть какие -либо вопросы, пожалуйста, прокомментируйте в соответствии с
Если Project поможет вам, добро пожаловать ~ (пожалуйста, не вилка без звезды (´ ・ ω ・ `))
Внимание: часть кода в этом хранилище может происходить из других материалов с открытым исходным кодом, только для моего собственного интереса и эксперимента. Может содержать ошибки и ссылки на код других людей.
中文版本 Readme
Основное содержание
Вы можете перейти в каждую папку проекта для получения более подробной информации в папке readme.md внутри,
- Текстовая классификация на основе многих моделей (Bilstm, Transformer) идите сюда
- Сводная генерация (сеть генератора указателей) Перейдите сюда здесь
- Перевод диалога (seq2seq), чтобы создать свой собственный диалог ~~ иди сюда
- Используйте GNN в классификации текста, идите здесь
- Трансформатор маска языковая модель предварительную подготовку иди сюда
- GPT для генерации текста и GPT для математической проблемы Go eresource Repo
- Обучение состязания (FGM) иди сюда
- Очень простое и быстрое использование/развертывание SEQ2SEQ-Transformer. В том числе несколько eamples (Denoise Pretrain, Medical-Questionanswering Go здесь
- Практическое использование pytorch_lighting идите сюда
- Обучение AMP и FP16 для Pytorch идите сюда
- Используется визуализация инструментария для карты внимания (или другой взвешенной матрицы идите сюда
- Диффузионные модели реализуют и применяют на моде MNIST идите сюда
- Простой вкус стабильного обучения (здание) иди сюда
- Простой вкус мета -обучения (здание) иди сюда
- Простая демонстрация вывода модели с большим Langauge идите здесь
Мои другие проекты NLP с открытым исходным кодом
- Берт по отношению к извлечению : Ricardokevins/Bert-In-Relation-Extraction: 使用 Bert 完成实体之间关系抽取 (github.com)
- Совместное текстовое составление : Ricardokevins/text_matching: NLP2020 中兴捧月句子相似度匹配 (github.com)
- Реализация трансформатора и полезный инструментарий NLP : Ricardokevins/EasyTransformer: быстрое начало с сильной базовой линейкой BERT и Transformer без предварительного добычи (github.com)
Что нового ~~
2023.3.27
- Обновите простую демонстрацию о процессе вывода большой языковой модели. Будет обновлять больше в будущем.
2022.8.31
- Обновление для диффузионной модели. Мы принимаем код из учебного пособия и внесли некоторые необходимые изменения в код, чтобы он работал локально. Практическая модель обучения и результаты вывода можно найти в папке диффузии/результата2.
2022.3.25
- Благодаря проблеме @Rattlesnakey (больше подробностей для обсуждения здесь). Я добавляю функцию в проект Pretrain. Установите внимание внимания маски, чтобы не допустить, чтобы маски-токенс самозажается друг с другом. Вы можете включить эту функцию в Transformer.py, установив «self.pretrain = true». PS: новая функция не была проверена на данный момент, и влияние на предварительное обучение не было проверено. Я заполню тесты позже
2022.1.28
- Восстановите структуру кода в трансформаторе. Сделайте код проще в использовании и развертывании
- Добавьте примеры: Denoise-Pretrain в трансформаторе (простой в использовании)
2022.1.16
- Обновление используйте трансформатор SEQ2SEQ для моделирования медицинского задания QA (Tuing на 55 Вт пары данных китайского медицинского QA). Более подробная информация, которую можно увидеть в readme.md of Transformer/Medqademo/
- Обновить новый тренер и полезные инструменты
- Удалить предыдущую реализацию трансформатора (с некоторыми незаконными ошибками)
Обновление истории
2021.1.23
- 初次 Commit 添加句子分类模块 包含 Transformer 和 Bilstm 以及 Bilstm+Attn 模型
- 上传基本数据集 , 句子二分类作为 демо 例子
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西 .... 略
2021.6.22
- 修复了 Текстовая классификация 的一些整理问题
- 增加了 Текстовая классификация 对应的使用说明
2021.7.2
- 增加了 MLM 预训练技术实践
- 修复了句子分类模型里 , 过分大且不必要的 Слово встроено (因为太懒 , 所以只修改了 Трансформатор 的)
- 在句子分类里增加了加载预训练的可选项
- 修复了一些 ошибка
2021.7.11
- 增加了 gnn 在 nlp 中的应用
- 实现了 GNN 在文本分类上的使用
- 效果不好 , 暂时怀疑是数据处理的问题
2021.7.29
- 增加了 CHI+TFIDF 传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了 Readme
2021.8.2
- 重构了对话机器人模型于 Seq2seq 文件夹
- 实现了 Beamsearch 解码方式
- 修复了 PGN 里的 Beamsearch Bug
2021.9.11
- 添加了 gpt 在文本续写和数学题问题的解决 (偷了 Карпати/смешивание: минимальная переопределение Pytorch обучения Openai GPT (генеративный преобразованный трансформатор) (github.com) 代码实现的很好 对理解 gpt 很有帮助 , 偷过来看看能不能用在好玩的东西 偷过来看看能不能用在好玩的东西 偷过来看看能不能用在好玩的东西 , , , , , , , , , , , , , , , ,
- 重构了 Сеть генератора указателей , 之前的表现一直不好 打算干脆重构 , 一行一行的重新捋一遍 , 感觉会安心很多。施工 ing。
2021.9.16
- 修复了 Предварительный знак 里 Mask Token 未对齐 , 位置不一致问题
2021.9.29
- 在 Трансформатор 里增加了一个随机数字串恢复的 демонстрация 对新手理解 трансформатор 超友好 , 不需要外部数据 , 利用随机构造的数字串训练
- 新增实验 Transfomervae , ошибка , 施工中
2021.11.20
- Обновите алгоритм BM25 и TF-IDF для быстрого соответствия текста.
2021.12.10
- Обновите практическое использование pytorch_lighting, используйте Text_classification в качестве примера. Преобразовать питорх в LightningLite. Более подробная информация в LightingMain.py。
- Удалить избыточный код
2021.12.9
- Обновление практического использования AMP (автоматическая смешанная точность). Реализовать в Vaegenerator, тестирование на локальном MX150, значительное улучшение времени обучения и использования памяти, больше подробностей в комментариях в конце кода
- Основанная на команде AMP, изменил определение 1E-9 на inf в model.py
2021.12.17
- Обновление взвешенной матрицы визуализировать инструментарий (например, используется для визуализации карты внимания) реализация в визуализации. Более полезный инструментарий в будущем
- Обновление стандартов кода комментариев Python. В будущем будет следовать более формальные практики кода.
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
Автоматическая смешанная точность (AMP)
https://featurize.cn/notebooks/368cbc81-2b27-4036-98a1-d77589b1f0c4