Kevinpro-nlp-demo
Beberapa implementasi sederhana dari algoritma NLP yang menyenangkan di Pytorch. memperbarui dan memelihara
Jika Anda memiliki pertanyaan, silakan komentar yang dipermasalahkan
Jika proyek membantu Anda, selamat datang bintang ~ (tolong jangan hanya garpu tanpa bintang (´ ・ Ω ・ `))
Perhatian: Bagian kode dalam repositori ini mungkin berasal dari bahan open source lainnya, hanya untuk minat dan percobaan saya sendiri. Mungkin berisi bug dan referensi ke kode orang lain.
中文版本 Readme
Konten utama
Anda dapat masuk ke setiap folder proyek untuk detail lebih lanjut di folder readme.md di dalam,
- Klasifikasi Teks Berdasarkan banyak model (bilstm, transformer) Buka di sini
- Ringkasan Pembuatan (Jaringan Generator Pointer) Buka di sini
- Terjemahan Dialog (SEQ2SEQ) untuk membangun dialogbot Anda sendiri ~~ Buka di sini
- Gunakan GNN dalam Klasifikasi Teks Buka di sini
- Model bahasa topeng transformator pretraining pergi ke sini
- GPT untuk pembuatan teks dan GPT untuk masalah matematika pergi heresource repo
- Pelatihan permusuhan (FGM) Buka di sini
- Penggunaan/penyebaran yang sangat sederhana dan cepat dari SEQ2SEQ-Transformer. Termasuk beberapa gawang (pretrain denoise, pertanyaan medis, kunjungi di sini
- Penggunaan praktis pytorch_light, buka di sini
- Pelatihan AMP dan FP16 untuk Pytorch Buka di sini
- Visualisasikan dengan bermanfaat untuk peta perhatian (atau matriks tertimbang lainnya pergi ke sini
- Model Difusi Implement dan Aplikasi di Mnist Fashion Buka di sini
- Rasa sederhana pembelajaran yang stabil (bangunan) Buka di sini
- Taste Simple Meta Learning (Building) Buka di sini
- Demo sederhana inferensi model langauge besar pergi ke sini
Proyek NLP open source saya yang lain
- Bert Dalam Hubungan Ekstraksi : Ricardokevins/Bert-in-Relation-Extraction: 使用 Bert 完成实体之间关系抽取 (github.com)
- Matching Teks : Ricardokevins/Text_Matching: NLP2020 中兴捧月句子相似度匹配 (github.com)
- Transformer Implement dan Toolkit NLP yang Berguna : Ricardokevins/EasyTransformer: Mulai Cepat dengan Baseline Bert dan Transformer yang Kuat Tanpa Pretrain (Github.com)
Apa yang baru ~~
2023.3.27
- Perbarui demo sederhana tentang proses inferensi model bahasa besar. Akan memperbarui lebih banyak di masa depan.
2022.8.31
- Pembaruan untuk Model Difusi. Kami mengadopsi kode dari tutorial dan membuat beberapa perubahan yang diperlukan pada kode untuk membuatnya berfungsi secara lokal. Model pelatihan praktis dan hasil inferensi dapat ditemukan di folder difusi/hasil2.
2022.3.25
- Berkat masalah @Rattlesnakey (detail diskusi lebih lanjut di sini). Saya menambahkan fitur dalam proyek pretrain. Atur berat perhatian topeng yang ditandai ke nol untuk mencegah perhatian topeng satu sama lain. Anda dapat mengaktifkan fitur ini di Transformer.py dengan mengatur "self.praTrain = true". PS: Fitur baru belum diverifikasi untuk saat ini, dan efek pada pra-pelatihan belum diverifikasi. Saya akan mengisi tes nanti
2022.1.28
- Membangun kembali struktur kode dalam transformator. Membuat kode lebih mudah digunakan dan digunakan
- Tambahkan Contoh: Denoise-Pretrain in Transformer (mudah digunakan)
2022.1.16
- Perbarui Gunakan transformator seq2seq untuk memodelkan tugas QA medis (tuing pada 55W pasang data QA medis Cina) lebih detail untuk dilihat di readme.md transformer/medqademo/
- Perbarui pelatih baru dan alat yang berguna
- Hapus implement transformator sebelumnya (dengan beberapa bug yang tidak dapat diperbaiki)
Perbarui riwayat
2021.1.23
- 初次 Komit 添加句子分类模块 , 包含 包含 和 和 和 和 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 包含 和 , 和 和 包含 和 和 , 和 , 和 和 , , , , , , , , , , , , , , , , , , , , bilst
- 上传基本数据集 , Demo 例子
- 加上和使用对抗学习思路
2021.5.1
- 重新整理和更新了很多东西 .... 略
2021.6.22
- 修复了 Klasifikasi teks 的一些整理问题
- 增加了 Klasifikasi teks 对应的使用说明
2021.7.2
- 增加了 MLM 预训练技术实践
- 修复了句子分类模型里 , 过分大且不必要的 kata embed (因为太懒 , 所以只修改了 transformator 的)
- 在句子分类里增加了加载预训练的可选项
- 修复了一些 Bug
2021.7.11
- 增加了 gnn 在 nlp 中的应用
- 实现了 gnn 在文本分类上的使用
- 效果不好 , 暂时怀疑是数据处理的问题
2021.7.29
- 增加了 chi+tfidf 传统机器学习算法在文本分类上的应用
- 实现和测试了算法性能
- 更新了 Readme
2021.8.2
- 重构了对话机器人模型于 seq2seq 文件夹
- 实现了 Beamsearch 解码方式
- 修复了 PGN 里的 Bug Beamsearch
2021.9.11
- 添加了 GPT 在文本续写和数学题问题的解决(偷了 Karpathy/Mingpt: Pytorch minimal implementasi ulang OpenAi GPT (transformator pretrained generatif) (github.com) 代码实现的很好 , 对理解 GPT 很有帮助 , ,
- 重构了 Jaringan Generator Pointer , 之前的表现一直不好 , 打算干脆重构 , 一行一行的重新捋一遍 , 感觉会安心很多。施工。。
2021.9.16
- 修复了 pretrain 里 Token topeng 未对齐 , 位置不一致问题
2021.9.29
- 在 Transformer 里增加了一个随机数字串恢复的 Demo , 对新手理解 Transformer 超友好 , 不需要外部数据 , 利用随机构造的数字串训练
- 新增实验 Transfomervae , 暂时有 Bug , 施工中
2021.11.20
- Perbarui algoritma BM25 dan TF-IDF untuk kecocokan teks yang cepat.
2021.12.10
- Perbarui penggunaan praktis pytorch_light, gunakan text_classification sebagai contoh. Konversi Pytorch ke Lightninglite. Rincian lebih lanjut di LighingMain.py。
- Hapus kode yang berlebihan
2021.12.9
- Perbarui penggunaan praktis AMP (presisi campuran otomatis). Menerapkan di Vaegenerator, tes pada MX150 lokal, signifikan meningkatkan waktu pelatihan dan penggunaan memori, lebih detail dalam komentar di akhir kode
- Berdasarkan perintah amp, memodifikasi definisi 1e-9 menjadi inf di model.py
2021.12.17
- Perbarui matriks tertimbang Visualisasi toolkit (mis. Digunakan untuk visualisasi peta perhatian) diimplementasikan dalam visualisasi. Toolkit yang lebih berguna di masa depan
- Perbarui Standar Kode Komentar Python. Praktik kode formal yang lebih formal akan diikuti di masa depan.
参考
BM25
https://blog.csdn.net/chaojianmo/article/details/105143657
Presisi Campuran Otomatis (AMP)
https://featurize.cn/notebooks/368cbc81-2b27-4036-98a1-d77589b1f0c4