kevinpro-nlp-demo
PytorchのFun NLPアルゴリズムの簡単な実装。更新と維持
質問がある場合は、問題にコメントしてください
Projectが役立つ場合は、Welcome Star〜(スターなしでフォークだけではありません( ’・ω・ `))
注意:このリポジトリのコードの部分は、私自身の関心と実験のためだけに、他のオープンソース資料から発生する可能性があります。バグと他の人のコードへの参照が含まれる場合があります。
中文版本readme
メインコンテンツ
フォルダーのreadme.md内部の詳細については、各プロジェクトフォルダーに移動できます。
- 多くのモデル(bilstm、トランス)に基づくテキスト分類はこちらをご覧ください
- 概要生成(ポインタージェネレーターネットワーク)はこちらをご覧ください
- Dialogue Translation(Seq2Seq)独自のDialogueBotを構築する~~ここにアクセスしてください
- テキスト分類でGNNを使用してください
- トランスマスク言語モデル前削除はこちらに行きます
- テキスト生成のためのGPTと数学の問題GOT HERESOURCEリポジトリ
- 敵対的なトレーニング(FGM)はこちらをご覧ください
- 非常にシンプルで迅速な使用/seq2seq-transformerの展開。いくつかのEAMPLEを含む(Denoise Gretrain、Medical-Questionanweringはここに行きます
- pytorch_lightingの実際の使用はこちらをご覧ください
- PytorchのAMPおよびFP16トレーニングはこちらをご覧ください
- 注意マップのためにツールキットを有用に視覚化します(または他の加重マトリックスはこちらをご覧ください
- 拡散モデルファッションミストの実装とアプリケーションはこちらに行きます
- 安定した学習のシンプルな味(建物)はこちらをご覧ください
- メタ学習のシンプルな味(建物)はこちらをご覧ください
- 大規模なランゲージモデルの推論の簡単なデモはこちらをご覧ください
私の他のオープンソースNLPプロジェクト
- バート関係の抽出:Ricardokevins/bert-in-relation-Extraction:使用Bert完成实体之间关系抽取(github.com)
- テキストマッチング:ricardokevins/text_matching:nlp2020中兴捧月句子相似度匹配(github.com)
- トランスの実装と便利なNLPツールキット:Ricardokevins/Easy Transformer:BertとTransformerの強力なベースラインからのクイックスタート(Github.com)
新しいものは何ですか~~
2023.3.27
- 大きな言語モデルの推論プロセスに関する簡単なデモを更新します。将来的にはもっと更新されます。
2022.8.31
- 拡散モデルの更新。チュートリアルからコードを採用し、コードをローカルで機能させるために必要な変更を加えました。実用的なトレーニングモデルと推論の結果は、拡散/結果2フォルダーに記載されています。
2022.3.25
- @rattlesnakeyの問題に感謝します(詳細についてはこちらの詳細)。 Pretrain Projectに機能を追加します。マスクトークンの注意重量をゼロに設定して、マスクが自己触たちを互いに引き起こすのを防ぎます。 「self.pretrain = true」を設定することにより、Transformer.pyでこの機能を有効にすることができます。 PS:新機能は当面が検証されておらず、トレーニング前の影響は検証されていません。後でテストに記入します
2022.1.28
- トランスのコード構造を再構築します。コードを使いやすく展開しやすくします
- 例を追加:変圧器のデノイズプレトレン(使いやすい)
2022.1.16
- 更新SEQ2SEQトランスを使用して、医療QAタスクのモデリング(中国の医療QAデータの55Wペアにチューリング)を使用します。
- 新しいトレーナーと便利なツールを更新します
- トランスの以前の実装を削除します(いくつかの固定不可能なバグ付き)
履歴を更新します
2021.1.23
- commit添加句子分类模块、包含変圧器
- 上传基本数据集、句子二分类作为デモ
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西....略
2021.6.22
- 修复了テキスト分類的一些整理问题
- 增加了テキスト分類对应的使用说明
2021.7.2
- 增加了MLM预训练技术实践
- 修复了句子分类模型里、过分大且不必要的ワード埋め込み(因为太懒、所以只修改了変圧器的)
- 在句子分类里增加了加载预训练的可选项
- 修复了一些バグ
2021.7.11
- 增加了gnn
- 实现了gnn在文本分类上的使用
- 效果不好、暂时怀疑是数据处理的问题
2021.7.29
- Chi+tfidf传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了readme
2021.8.2
- seq2seq文件夹
- beamsearch解码方式
- 修复了PGN beamSearchバグ
2021.9.11
- 添加了gpt 在文本续写和数学题问题的解决(偷了 karpathy/mingpt:openai gpt(Github.com)トレーニング(Github.com)の最小限のpytorch再実装
- pointerジェネレーターネットワーク、之前的表现一直不好、打算干脆重构、一行一行的重新捋一遍、感觉会安心很多。施工
2021.9.16
- pretrain里マスクトークン未对齐、位置不一致问题
2021.9.29
- 在変圧器里增加了一个随机数字串恢复的デモ、对新手理解変圧器超友好、不需要外部数据、利用随机构造的数字串训练
- 新增实验transfomervae、暂时有バグ、施工中
2021.11.20
- テキストをクイックマッチするために、BM25およびTF-IDFアルゴリズムを更新します。
2021.12.10
- pytorch_lightingの実際の使用を更新し、例としてtext_classificationを使用してください。 PytorchをLightningLiteに変換します。 lightingmain.pyの詳細。
- 冗長コードを削除します
2021.12.9
- AMPの実際の使用(自動混合精度)を更新します。 Vaegeneratorで実装し、ローカルMX150でテストし、トレーニング時間とメモリ使用量を大幅に改善します。コードの最後にあるコメントの詳細
- AMPのコマンドに基づいて、Model.pyの1E-9の定義をINFに変更しました
2021.12.17
- 更新加重マトリックス視覚化Toolkit(たとえば、注意マップの視覚化に使用される)視覚化の実装。将来、より便利なツールキット
- Pythonコメントコード標準を更新します。将来、より正式なコードプラクティスが守られます。
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
自動混合精度(AMP)
https://featurize.cn/notebooks/368cbc81-2b27-4036-98a1-d77589b1f0c4