Kevinpro-nlp-demo
Pytorch에서 재미있는 NLP 알고리즘의 간단한 구현. 업데이트 및 유지 관리
질문이 있으시면 문제에 대해 의견을 제시하십시오
프로젝트가 도움이되면 Welcome Star ~ (스타없이 포크하지 마십시오 (´ ・ ω ・`)).
주의 :이 저장소의 코드 부분은 내 자신의 관심과 실험을 위해 다른 오픈 소스 자료에서 유래 할 수 있습니다. 다른 사람들의 코드에 대한 버그와 참조가 포함될 수 있습니다.
中文版本 readme
주요 내용
폴더의 readme.md 내부에서 자세한 내용은 각 프로젝트 폴더로 이동하여
- 많은 모델 (BILSTM, 변압기)을 기반으로 한 텍스트 분류는 여기로 이동합니다
- 요약 생성 (포인터 생성기 네트워크)은 여기로 이동합니다
- 대화 번역 (seq2seq) 자신의 대화 보트를 구축하려면 ~~ 여기로 이동하십시오.
- 텍스트 분류에서 GNN을 사용하십시오
- 트랜스포머 마스크 언어 모델 프리 트레인은 여기로 이동합니다
- 텍스트 생성을위한 GPT 및 수학 문제를위한 GPT는 HERESOURCE Repo
- 적대 훈련 (FGM)은 여기로갑니다
- Seq2Seq-Transformer의 매우 간단하고 빠른 사용/배포. 여러 eamples (Denoise Pretrain, Medical-Questionanswering은 여기에 가십시오
- pytorch_lighting의 실질적인 사용은 여기로 이동하십시오
- Pytorch를위한 AMP 및 FP16 교육
- 주의 맵을 위해 툴킷을 유용하게 시각화하십시오 (또는 기타 가중 행렬로 이동하십시오.
- 확산 모델이 패션 MNIST에 구현 및 응용 프로그램을 구현하십시오.
- 안정적인 학습 (건물)의 간단한 맛은 여기로갑니다
- 메타 학습의 간단한 맛 (건물)
- 대형 Langauge 모델 추론의 간단한 데모는 여기로 이동합니다
다른 오픈 소스 NLP 프로젝트
- 관련 추출 : Ricardokevins/Bert-In-Relation-Extraction : 使用 Bert 完成实体之间关系抽取 (github.com)
- 텍스트 매칭 : Ricardokevins/Text_matching : NLP2020 中兴捧月句子相似度匹配 (github.com)
- 변압기 구현 및 유용한 NLP 툴킷 : Ricardokevins/EasyTransformer : 프리 트레인이없는 Bert 및 Transformer의 강력한 기준선으로 빠르게 시작하십시오 (github.com)
새로운 ~~
2023.3.27
- 큰 언어 모델의 추론 과정에 대한 간단한 데모를 업데이트하십시오. 앞으로 더 많은 업데이트 할 것입니다.
2022.8.31
- 확산 모델을위한 업데이트. 우리는 튜토리얼에서 코드를 채택하고 코드를 로컬로 작동시키기 위해 필요한 코드를 변경했습니다. 실용 교육 모델 및 추론 결과는 확산/결과 2 폴더에서 찾을 수 있습니다.
2022.3.25
- @Rattlesnakey의 문제 덕분에 (여기에 더 많은 토론 세부 사항). 프리 트레인 프로젝트에 기능을 추가합니다. 마스크 토크 자체 변환을 방지하기 위해 마스크 토닉의 주의력을 0으로 설정하십시오. "self.pretrain = true"를 설정하여 Transformer.py 에서이 기능을 활성화 할 수 있습니다. 추신 : 새로운 기능은 당분간 확인되지 않았으며 사전 훈련에 미치는 영향은 확인되지 않았습니다. 나중에 테스트를 작성하겠습니다
2022.1.28
- 변압기에서 코드 구조를 재구성하십시오. 코드를보다 쉽게 사용하고 배포 할 수 있도록하십시오
- 예제 추가 : 변압기의 Denoise-Pretrain (사용하기 쉬운)
2022.1.16
- 업데이트 의료 QA 작업 모델링에 Seq2Seq 변압기를 사용하십시오 (55W 중국 의료 QA 데이터 쌍에 대한 쌍) 더 자세한 내용은 readme.md of Transformer/Medqademo/에서 볼 수 있습니다.
- 새로운 트레이너 및 유용한 도구를 업데이트하십시오
- 이전의 변압기 구현 (일부 고정 할 수없는 버그 포함)을 제거하십시오.
히스토리 업데이트
2021.1.23
- commit , , ,, 包含 변압기 和 bilstm 以及 bilstm+attn 模型
- 上传基本数据集, 句子二分类作为 데모 例子
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西 .... 略
2021.6.22
- 修复了 텍스트 분류 ification
- 增加了 텍스트 분류 ification
2021.7.2
- mlm m
- 修复了句子分类模型里 修复了句子分类模型里, 过分大且不必要的 Word Embed (因为太懒 因为太懒, 所以只修改了 변압기 的))
- 在句子分类里增加了加载预训练的可选项
- 修复了一些 버그
2021.7.11
- 增加了 Gnn n nlp 中的应用
- 实现了 Gnn n
- 效果不好, 暂时怀疑是数据处理的问题
2021.7.29
- 增加了 chi+tfidf 传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了 readme
2021.8.2
- seq2seq 文件夹
- beamsearch earch
- pgn 里的 빔 검색 버그
2021.9.11
- 添加了 gpt 在文本续写和数学题问题的解决 (偷了 Karpathy/Mingpt : Openai Gpt의 최소 Pytorch 재 구현 (생성 전세 변압기) 교육 (github.com) 代码实现的很好 代码实现的很好, 对理解 gpt 很有帮助, 偷过来看看能不能用在好玩的东西
- 重构了 포인터 생성기 네트워크, 之前的表现一直不好, 打算干脆重构, 一行一行的重新捋一遍, 感觉会安心很多。施工 ing。
2021.9.16
- pretrain ain 마스크 토큰 未对齐, 位置不一致问题
2021.9.29
- Transformer 변압기 里增加了一个随机数字串恢复的 데모, 对新手理解 변압기 超友好, 不需要外部数据, 利用随机构造的数字串训练
- transfomervae, 暂时有 버그, 施工中
2021.11.20
- 텍스트의 빠른 일치를 위해 BM25 및 TF-IDF 알고리즘을 업데이트하십시오.
2021.12.10
- pytorch_lighting의 실제 사용을 업데이트하고, Text_classification을 예로 사용하십시오. Pytorch를 Lightninglite로 변환하십시오. LightingMain.py。에 대한 자세한 내용
- 중복 코드를 제거하십시오
2021.12.9
- AMP의 실제 사용 (자동 혼합 정밀도)을 업데이트하십시오. Vaegenerator에서 구현, 로컬 MX150에서 테스트, 교육 시간 및 메모리 사용을 크게 향상 시키며 코드 끝의 의견에 대한 자세한 내용
- AMP의 명령에 따라 Model.py에서 1E-9의 정의를 수정했습니다.
2021.12.17
- 가중치 매트릭스 업데이트 툴킷 시각화 (예 :주의 맵의 시각화에 사용) 시각화에서 구현. 앞으로 더 유용한 툴킷
- Python 주석 코드 표준을 업데이트하십시오. 앞으로 더 공식적인 코드 관행이 이어질 것입니다.
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
자동 혼합 정밀도 (AMP)
https://featurize.cn/notebooks/368cbc81-2b27-4036-98a1-d77589b1f0c4