kevinpro-nlp-demo
Pytorch中一些簡單的Fun NLP算法實現。更新和維護
如果您有任何疑問,請評論有關
如果項目對您有所幫助,請歡迎星星〜(請不要只沒有星星(´・ω・))
注意:此存儲庫中代碼的一部分可能是出於我自己的利益和實驗來源的。可能包含錯誤和對他人代碼的引用。
中文版本讀書我
主要內容
您可以進入每個項目文件夾,以獲取更多詳細信息,以填寫文件夾的readme.md中的更多詳細信息,
- 基於許多模型(Bilstm,Transform)的文本分類去處
- 摘要生成(指針生成器網絡)轉到此處
- 對話翻譯(SEQ2SEQ)構建您自己的對話Bot ~~去這裡
- 在文本分類中使用GNN
- 預處理變壓器面具語言模型
- GPT用於文本生成和GPT數學問題Go go HereSource repo
- 對抗訓練(FGM)去這裡
- 非常簡單,快速使用/部署Seq2Seq-Transformer。包括幾個Eamples(Denoise Fretiner,Medical-QuestionAnswerming去這裡
- pytorch_lighting的實際使用去這裡
- 放大器和FP16 Pytorch培訓去這裡
- 有用可視化工具包用於注意力圖(或其他加權矩陣
- 擴散模型在時尚MNIST上實施和應用
- 簡單的穩定學習味道(建築)去這裡
- 簡單的元學習味道(建築物)去這裡
- 大型Langauge模型推理的簡單演示去這裡
我的其他開源NLP項目
- 關係提取:Ricardokevins/bert-In-In-In-Rectation-rettractration:使用bert完成實體之間關係抽取(github.com)
- 文本匹配:Ricardokevins/text_matching:nlp2020中興捧月句子相似度匹配(github.com)
- 變形金剛實施和有用的NLP工具包:Ricardokevins/EasyTransFormer:快速啟動Bert和Transformer的強大基線,而沒有前進(GitHub.com)
什麼是新的~~
2023.3.27
- 更新有關大語言模型推理過程的簡單演示。將來會更新。
2022.8.31
- 擴散模型的更新。我們從教程中採用代碼,並對代碼進行了一些必要的更改,以使其在本地工作。實用的訓練模型和推理結果可以在擴散/結果2文件夾中找到。
2022.3.25
- 感謝 @rattlesnakey的問題(此處提供更多討論詳細信息)。我添加了Pretrain項目中的功能。將面膜to的注意力重量設置為零,以防止面具to的自我注意力。您可以通過設置“ self.pretrain = true”在transformer.py中啟用此功能。 PS:暫時尚未驗證新功能,並且尚未驗證對預訓練的影響。我稍後會填寫測試
2022.1.28
- 重建變壓器中的代碼結構。使代碼更易於使用和部署
- 添加示例:變壓器中的Denoise-Prretrain(易於使用)
2022.1.16
- 更新使用SEQ2SEQ Transformer進行建模Medical QA任務(55W對中國醫學質量檢查數據),可以在Transformer/Medqademo/MedQademo/的readme.md中看到更多詳細信息。
- 更新新教練和有用的工具
- 刪除變壓器的先前實現(帶有一些不可修復的錯誤)
更新歷史記錄
2021.1.23
- 初次提交添加句子分類模塊,包含變壓器和bilstm以及bilstm+attn模型
- 上傳基本數據集,句子二分類作為演示
- 加上和使用對抗學習思路
2021.5.1
- 重新整理和更新了很多東西....略
2021.6.22
- 修復了文本分類的一些整理問題
- 增加了文本分類對應的使用說明
2021.7.2
- MLM預訓練技術實踐
- 修復了句子分類模型裡,過分大且不必要的詞嵌入(因為太懶,所以只修改了變壓器的)
- 在句子分類裡增加了加載預訓練的可選項
- 修復了一些錯誤
2021.7.11
- 增加了gnn在nlp中的應用
- 實現了gnn在文本分類上的使用
- 效果不好,暫時懷疑是數據處理的問題
2021.7.29
- Chi+tfidf
- 實現和測試了算法性能
- 更新了讀書我
2021.8.2
- 重構了對話機器人模型於seq2seq文件夾
- 實現了beamSearch解碼方式
- 修復了pgn裡的beamsearch bug
2021.9.11
- 添加了gpt 在文本續寫和數學題問題的解決(偷了 karpathy/mingpt:openai gpt(生成驗證的變壓器)培訓(github.com)代碼實現的很好
- 重構了指針發電機網絡,之前的表現一直不好,打算乾脆重構,一行一行的重新捋一遍,感覺會安心很多。施工,。
2021.9.16
- 修復了預處理裡蒙版令牌,位置不一致問題,位置不一致問題
2021.9.29
- 在變壓器裡增加了一個隨機數字串恢復的演示,對新手理解變壓器超友好,不需要外部數據,利用隨機構造的數字串訓練,利用隨機構造的數字串訓練
- 新增實驗transfomervae,暫時有蟲,施工中
2021.11.20
- 更新BM25和TF-IDF算法以快速匹配文本。
2021.12.10
- 更新pytorch_lighting的實際使用,以text_classification為例。將Pytorch轉換為Lightninglite。 lightingmain.py的更多詳細信息。
- 刪除冗餘代碼
2021.12.9
- 更新AMP的實際使用(自動混合精度)。在VaeGenerator中實施,對本地MX150進行測試,大量改善訓練時間和記憶使用,在代碼結束時註釋中的更多詳細信息
- 基於AMP的命令,修改了1E-9對inf的定義。
2021.12.17
- 更新加權矩陣可視化工具包(例如,用於可視化注意圖)實現可視化。將來更有用的工具包
- 更新Python評論代碼標準。將來將遵循更正式的代碼慣例。
參考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
自動混合精度(AMP)
https://featurize.cn/notebooks/368CBC81-2B27-4036-98A1-D77589B1F0C4