Promosikan pencarian Arsenal
Penulis: Yang XI
Catatan Studi Kertas NLP: https://github.com/km1994/nlp_paper_study
PENDAHULUAN Pribadi: Halo, nama saya Yang XI.
NLP Alamat serbaguna dan serbaguna: https://github.com/km1994/nlp-interview-notes
Sistem yang Disarankan dengan semua sisi dan semua jenis alamat: https://github.com/km1994/res-interview-notes
Promosi dan Cari Perpustakaan Senjata : https://github.com/km1994/recommendation_advertisement_search
Ikuti akun resmi [hal -hal yang tidak Anda ketahui tentang NLP] dan bergabunglah [nlp && grup pembelajaran yang direkomendasikan] untuk belajar bersama! Lai Lai
1. Proyek
1.1 Beberapa model besar yang dapat diunduh di industri saat ini
- chatgpt:
- https://openai.com/blog/chatgpt
- Alamat Pengalaman: https://chat.openai.com/
- GLM-10B/130B
- PENDAHULUAN: model padat dua bilingual (Cina dan Inggris)
- Opt-2.7b/13b/30b/66b:
- PENDAHULUAN: MODER MODER MODEL BAHASA PRE-LOBUS
- Github: https://github.com/facebookResearch/metaseq
- Kertas: https://arxiv.org/pdf/2205.01068.pdf
- Llama-7b/13b/30b/65b:
- PENDAHULUAN: Model bahasa besar dasar meta open source
- GitHub: https://github.com/facebookResearch/llama
- Kertas: https://arxiv.org/pdf/2302.13971v1.pdf
- Alpaca (llama-7b):
- PENDAHULUAN: Stanford mengusulkan model tindak lanjut instruksi yang dapat direproduksi.
- Github: https://github.com/tatsu-lab/stanford_alpaca
- Chines-llama-alpaca Github: https://github.com/ymcui/chinese-llama-alpaca
- Belle (Bloomz-7b/llama-7b):
- PENDAHULUAN: Proyek ini didasarkan pada Stanford Alpaca dan dioptimalkan untuk Model Tuning hanya menggunakan data yang diproduksi oleh ChatGPT (tidak ada data lain)
- Chatglm-6b:
- Pendahuluan: Model Bahasa Dialog Bilingual Cina dan Inggris
- Github: https://github.com/thudm/chatglm-6b/
- Bloom-7b/13b/176b:
- Pendahuluan: Dapat menangani 46 bahasa termasuk bahasa Prancis, Cina, Vietnam, Indonesia, Catalan, 13 bahasa India (seperti bahasa Hindi) dan 20 bahasa Afrika. Di antara mereka, model Bloomz Series disesuaikan berdasarkan dataset XP3. Direkomendasikan untuk permintaan bahasa Inggris (dorongan); Direkomendasikan untuk petunjuk non-Inggris (dorongan)
- GitHub: https://huggingface.co/bigscience/bloom
- Kertas: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7B/13B):
- Pendahuluan: Vicuna-13b, yang dibuat oleh para peneliti di UC Berkeley, CMU, Stanford, dan UC San Diego, diperoleh dengan menyempurnakan Llama dalam data percakapan yang dibagikan pengguna yang dikumpulkan oleh Sharegpt. Di antara mereka, GPT-4 digunakan untuk evaluasi dan menemukan bahwa kinerja vicuna-13b mencapai kemampuan yang sebanding dengan chatgpt dan bard pada lebih dari 90% kasus; Dan pelatihan untuk vicuna-13b berharga sekitar $ 300. Tidak hanya itu, tetapi juga menyediakan platform terbuka untuk pelatihan, melayani dan mengevaluasi chatbots berdasarkan model bahasa besar: fastchat.
- Kain tebal dr wol kasar:
- Pendahuluan: Bai Ze dilatih di llama. Saat ini, empat model bahasa Inggris termasuk: BAI ZE-7B, 13B, 30B (Model Dialog Umum) dan Model Bai Ze-Medis Field Vertikal untuk penelitian/penggunaan non-komersial, dan berencana untuk merilis model Bai Ze Cina di masa depan. Semua kode seperti pemrosesan data Bai Ze, model pelatihan, dan demo telah bersumber terbuka.
- Llmzoo:
- PENDAHULUAN: Serangkaian model besar yang diluncurkan oleh Universitas Cina Hong Kong dan tim Institut Penelitian Big Data Shenzhen, seperti Phoenix dan Chimera, dll. - Moss: Model Bahasa Lumut Besar yang diluncurkan oleh tim Fudan NLP.
- Alpaca Fastchat
- Github: https://github.com/lm-sys/fastchat
- Minigpt-4
- Github: https://github.com/vision-cair/minigpt-4
1.2 [LLMS Pengantar Seri Urutan Praktis]
Tsinghua University Open Source Chinese Version ChatGLM-6B Model Learning and Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical P Model Learning and Practical Battle [LLMS Pemula Pertempuran Praktis - 8] Pembelajaran Model Minigpt -4 dan Pertempuran Praktis
1.3 Pembelajaran Arsenal Proyek NLP
- 【Konstruksi Grafik Pengetahuan Deepkg】 https://github.com/powerty/deepkg
- PENDAHULUAN: Proyek ini berkomitmen pada pembangunan grafik pengetahuan, dan saat ini membangun metodenya sedikit demi sedikit, dan saya berharap dapat membantu lebih banyak orang.
1.4 Pembelajaran Arsenal Proyek Sistem yang Direkomendasikan
- 【Fun-rec】 https://github.com/datawhalechina/fun-rec
- PENDAHULUAN: Ini terutama ditujukan untuk siswa yang memiliki fondasi pembelajaran mesin dasar dan ingin menemukan posisi algoritma yang direkomendasikan.
- 【Recsys】 https://github.com/qcymkxyc/recsys
- PENDAHULUAN: Implementasi Kode Xiang Liang dari "Praktik Sistem yang Direkomendasikan"
1.5 Pembelajaran Arsenal Proyek Mesin Pencari
- [Proyek Pencari Proyek Terbuka Sumber] https://github.com/zuo369301826/search_project
- PENDAHULUAN PROYEK: Pencarian Baidu untuk mengimplementasikan mesin pencari situs.
- Fitur Proyek: Gunakan kerangka kerja open source seperti protobuf, gflag, dan glog yang disediakan oleh Google untuk menyelesaikan pengembangan; . Server HTTP memanggil klien pencarian di CGI untuk menyelesaikan fungsi pencarian
- 【Elastis】 https://www.elastic.co/cn/
- PENDAHULUAN: Elasticsearch adalah mesin pencarian dan analisis data yang didistribusikan dan tenang yang dapat menyelesaikan kemunculan berbagai kasus penggunaan. Di jantung tumpukan elastis, ini secara terpusat menyimpan data Anda dan membantu Anda menemukan situasi yang tidak terduga dan tidak terduga.
- 【Nutch】 http://nutch.sourceForge.net/docs/zh/about.html
- Pendahuluan: Nutch adalah mesin pencari web yang baru saja lahir open-source. Ada instruksi Tiongkok terperinci di berandanya.
- 【Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- Pendahuluan: Apache Lucene adalah mesin crawler program open source yang dapat dengan mudah menambahkan fungsi pencarian teks lengkap ke perangkat lunak Java. Pekerjaan utama Lucene adalah mengindeks setiap kata dari file.
- 【Egothor】 http://www.egothor.org/
- Pendahuluan: Egothor adalah sumber terbuka dan mesin pencari teks lengkap yang efisien yang ditulis di Java. Dengan fitur cross-platform dari Java, Egothor dapat diterapkan pada aplikasi di lingkungan apa pun, baik sebagai mesin pencari terpisah dan untuk aplikasi Anda sebagai pencarian teks lengkap.
- 【Oxyus】 http://oxyus.sourceforge.net/
- PENDAHULUAN: Ini adalah mesin pencari web bermasalah murni.
- 【Bddbot】 http://www.twmacinta.com/bddbot/
- PENDAHULUAN: BDDBOT adalah yang sederhana dan mudah dimengerti dan menggunakan mesin pencari. Saat ini merangkak dalam URL yang tercantum dalam file teks (urls.txt) dan menyimpan hasilnya dalam database. Ini juga mendukung server web sederhana yang menerima kueri dari browser dan mengembalikan hasil respons. Ini dapat dengan mudah diintegrasikan ke dalam situs web Anda.
1.6 Hitung Proyek Periklanan Pembelajaran Arsenal
- [Meituan DSP Praktek Strategi Periklanan] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [Pengantar Periklanan Internet dan Iklan Komputasi] http://web.stanford.edu/class/msande239/
2. AI artefak
- CHATGPT AI Artefact
- 【AI Artefact】 Dialog Ai - Chatgpt https://999.weny66.cn/chat?bd_vid=1197231054327469370
- 【AI Artefact】 GPT-4 pengalaman online situs web chatmindai.cn
- 【AI Artefact】 chatgpt3.5 gratis untuk masuk, tersedia di China https://chat23.yqcloud.top/
- Forefront obrolan obrolan.forefront.ai
- Poe poe.com/gpt-4
- 3D AI Artefact
- Studio Masterpiece: https://xiaobot.net/p/superindividual
- Studio Masterpiece: https://masterpiecestudio.com
- G3dai {jedi}: https://g3d.ai
- Ponzu: https://www.ponzu.gg
- Prometheanai: https://www.prometheanai.com
- Leonardo.ai: https://leonardo.ai
- Art ai artefak
- Dream Up (Deviant Art): https://www.dreamup.com
- Nightcafe Studio: https://creator.nightcafe.studio
- Midjourney: https://www.midjourney.com/home/
- Artbreeder: https://www.artbreeder.com
- WOMBO: https://www.wombo.art
- Mengedit Audio AI Artefact
- Podcastle: Editing https://podcastle.ai
- CleanVoice: Pengeditan audio https://cleanvoice.ai
- Asisten Kode Artefak AI
- Codesquire https://codesquire.ai
- Buildt Code Assistant https://www.buildt.ai
- Hei, GitHub!
- Pembaruan Berkelanjutan
3. Pengantar Xiaobai AI
3.1 Pengantar Pembelajaran Mesin
- [Kursus Seri Pembelajaran Mesin Wu Wanda] https://www.bilibili.com/video/bv164411b7dx?from=search&seid=18138466354258018449&spm_id_from=3333.337.0.0.0
3.2 Memulai dengan NLP
- [2021 NG Deep Learning - Model Urutan NLP] https://www.bilibili.com/video/bv1co4y1279r?from=search&seid=17563746002586971760&spm_id_from=333.37.37.0.0.0.0.0.0.0.0.0.0.0.37.37.37.37.37.337.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.37.33.
- 【Pengantar Grafik Pengetahuan】
- Catatan Kuliah Peta Universitas Zhejiang |
- Catatan Kuliah Peta Universitas Zhejiang |
- Catatan Kuliah Grafik |
- Catatan Kuliah Grafik |
- Catatan Kuliah Grafik |
3.3 Memulai dengan Komputasi Iklan
- [Pengantar Periklanan Internet dan Iklan Komputasi] http://web.stanford.edu/class/msande239/
- Kuliah 1: Pendahuluan, Catatan Tambahan
- Kuliah 2: Desain Pasar, dalam Presentasi Kelas, Catatan Tambahan
- Kuliah 3: Pencarian yang disponsori 1, dalam presentasi kelas
- Kuliah 4: Pencarian 2, dalam presentasi kelas
- Kuliah 5: Iklan Tampilan 1, di Presentasi Kelas
- Kuliah 6: Iklan Tampilan 2, di Presentasi Kelas
- Kuliah 7: Penargetan, dalam presentasi kelas
- Kuliah 8: Sistem Rekomendasi, dalam Presentasi Kelas 1, dalam Presentasi Kelas 2
- Kuliah 9: Mobile, Video, dan Format Muncul Lainnya, dalam Presentasi Kelas 1, dalam Presentasi Kelas 2
- [Liu Peng - Iklan Komputasi (Direkomendasikan)] http://study.163.com/course/introduction.htm?courseid=321007
- PENDAHULUAN: Guru Liu Peng saat ini berfungsi sebagai arsitek utama produk komersial di 360 dan memiliki pengalaman praktis yang kaya di bidang iklan internet. Konten dari kursus "iklan komputasi" mudah dimengerti, dari model sejarah periklanan hingga teknologi terbaru, yang sangat cocok untuk teman -teman yang baru di lapangan untuk dipelajari.
- Pengetahuan Dasar Periklanan
- Sistem Periklanan Kontrak
- Penargetan audiens
- Sistem iklan penawaran
- Cari iklan dan teknologi permintaan jaringan iklan
- Pasar Periklanan
- 【Baidu - Iklan Komputasi】 http://openresearch.baidu.com/courses/1231.jhtml
- Tinjauan Iklan Komputasi
- Prinsip Iklan Mesin Pencari, Teknologi dan Praktik Teknik
- Prinsip, Teknik, dan Praktik Periklanan Pencocokan Konten
- [Wang Yongrui - Algoritma iklan internet dan praktik sistem] http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- Pendahuluan: Guru Wang adalah orang yang bertanggung jawab atas algoritma iklan yang ditargetkan Taobao. Kursusnya menggabungkan pengalaman praktik periklanan Taobao, dari teori periklanan hingga praktik teknis yang sistematis, dan sangat layak untuk dipelajari oleh teknisi.
- Pengantar iklan internet
- Cari iklan
- Iklan yang ditargetkan
- Penawaran iklan real-time
- Arsitektur dan tantangan sistem iklan
- 【UCS - Pengantar Periklanan Komputasi】 http://classes.soe.ucsc.edu/ism293/spring09/index_archivos/page456.html
- Pendahuluan dan Ikhtisar
- Pengambilan Informasi (IR) untuk komputasi
- Desain Marketplace
- Teknik Pembelajaran Mesin
- Pencarian yang disponsori i
- Pencarian yang disponsori II
- Iklan grafis dan pengiriman yang dijamin
- Iklan Kontekstual i
- Iklan Kontekstual II
- Penargetan Perilaku (BT)
4. Promosikan pencarian tesis dan catatan studi
- 【Catatan Studi NLP】
- 【Transformator】
- 【Tentang transformator yang efisien: survei】 hal -hal yang tidak Anda ketahui
- 【Kompresi Model Bert】
- 【Tentang Pelatihan Mandiri + Pra-Pelatihan = Model Pemahaman Bahasa Alami yang Lebih Baik】 Hal yang Tidak Anda Ketahui
- 【Tentang Bert to Textcnn】 Hal yang Tidak Anda Ketahui
- 【Pengakuan Entitas yang Dinamai】
- 【Biaffine tentang pengakuan entitas bersarang】 Hal -hal yang tidak Anda ketahui
- Papershape oleh Biaffine
- Inventarisasi Papershape tentang pengakuan entitas yang disebutkan dalam beberapa tahun terakhir
- 【Tentang pembelajaran terus -menerus untuk ner】 hal -hal yang tidak Anda ketahui
- 【Ekstraksi hubungan】
- 【Tentang Ekstraksi Hubungan HBT】 Hal yang Tidak Anda Ketahui
- Sejak awal, ekstraksi hubungan
- Dari awal, ekstraksi hubungan - serangan pengawasan jarak jauh
- [Ekstraksi hubungan tingkat dokumen]
- 【Tentang atlop】 hal -hal yang tidak Anda ketahui
- Ringkasan Kertas |.
- Ringkasan Kertas |.
- 【Kecocokan teks】
- 【Tentang kalimat-Bert】 Hal-hal yang tidak Anda ketahui
- Facebook: Prinsip FAISS + Aplikasi Perpustakaan Pencarian untuk jutaan kesamaan vektor
- Solusi vektor kalimat baru Cosent Practical Record
- 【Referensi rantai status】
- 【Tentang Gener】 Hal yang Tidak Anda Ketahui
- 【Koreksi kesalahan teks】
- 【Tentang Gector】 Hal yang Tidak Anda Ketahui
- 【Robot T&J】
- TopicShare Berbagi Berbasis Adegan dan Robot Berbasis Pencarian
- 【Sistem Dialog】
- "【Komunitas mengatakan】 Mari kita bicara tentang Rasa 3.0" catatan yang tidak lengkap
- (I) Gambaran Umum Robot Dialog
- (Ii) Pengantar Rasa Open Source Engine
- (Iii) Model Bahasa Rasa NLU
- (Iv) segmenter kata rasa nlu
- (V) Generator Fitur Rasa NLU
- (Vi) Rasa nlu intent classifier
- (Vii) rasa nlu entitas ekstraktor
- (9) Komponen Pipa Kustom Rasa
- (10) Kebijakan Inti Rasa
- (11) Rasa Core Action
- (12) Domain Rasa
- (13) Data Pelatihan Rasa
- (14) Kisah Rasa
- (15) Aturan Rasa
- (16) Praktik Terbaik Rasa
- (17) Mulai robot Cina berdasarkan Rasa
- (18) Mulai mekanisme implementasi robot Cina berdasarkan RASA
- (19) Sistem tanya jawab berdasarkan grafik pengetahuan (KBQA)
- (20) Sistem tanya jawab berdasarkan pemahaman membaca
- Diet: Dual Intent and Entity Transformer—— Terjemahan Kertas Rasa
- (21) FAQ pada aplikasi RASA
- (22) Hyperparameter Optimalisasi Rasa
- (23) Pengujian dan evaluasi robot
- (24) Buat asisten dialog konteks menggunakan formulir RASA
- 【Kbqa】
- 【Tentang KBQA yang kompleks】 Hal -hal yang tidak Anda ketahui (Bagian 1)
- 【Tentang kompleks KBQA】 Hal -hal yang tidak Anda ketahui (Cina)
- 【Tentang KBQA yang kompleks】 Hal -hal yang tidak Anda ketahui (Bagian 2)
- 【Ekstraksi acara】
- 【Tentang Mlbinet】 Hal yang Tidak Anda Ketahui
- 【Tuning cepat】
- Pendahuluan penyetelan cepat
- 【Penemuan Kata Baru】
- Bangun PTM Anda sendiri! Mining Kata Baru + Pra-Pelatihan
- 【Teks ke SQL】
- Teks ke SQL? Berikut adalah analisis dasar
- 【Catatan Studi Sistem yang Direkomendasikan】
- Tren Evolusi Teknologi Sistem yang Direkomendasikan: Recall
- Tren Evolusi Teknologi Sistem yang Direkomendasikan: Penyortiran
- Tren Evolusi Teknologi Sistem yang Direkomendasikan: Penataan ulang
- Bagaimana sistem rekomendasi menemukan pengguna serupa?
- Artikel panjang dengan sepuluh ribu kata merinci logika dan evolusi sistem rekomendasi dialog
- Ringkasan teknologi terkait adaptasi model dalam sistem yang direkomendasikan
- 【Catatan Studi GCN】
- 【Tentang GCN di NLP】 Hal yang Tidak Anda Ketahui
- [Hitung makalah iklan dan daftar data github repo]
- Tiga perspektif utama, bicarakan tentang sistem periklanan di mata saya
- [Makalah Sistem yang Disarankan dan Daftar Data GitHub Repo]
- 【Mesin pencari】
- 【Tentang PLM untuk pengambilan skala web dalam pencarian Baidu】 hal-hal yang tidak Anda ketahui
- EMNLP 2021 |
5. Promosikan artikel pencarian
- 【Nlp serbaguna dan serbaguna】
- 【Pembelajaran Mesin】
- 【Tentang regularisasi】 hal -hal yang tidak Anda ketahui
- 【Tentang algoritma optimasi】 hal -hal yang tidak Anda ketahui
- 【Tentang Batchnorm vs Layernorm】 Hal -Hal yang Tidak Anda Ketahui
- 【Tentang Normalisasi】 Hal yang Tidak Anda Ketahui
- 【Tentang overfitting dan underfitting】 hal -hal yang tidak Anda ketahui
- 【Pembelajaran mendalam】
- 【Tentang CNN】 Hal yang Tidak Anda Ketahui
- 【Tentang Perhatian】 Hal yang Tidak Anda Ketahui
- 【Tentang Transformer】 Hal -hal yang tidak Anda ketahui (Bagian 1)
- 【Tentang Transformer】 Hal yang Tidak Anda Ketahui (Cina)
- 【Tentang Transformer】 Hal -hal yang tidak Anda ketahui (Bagian 2)
- 【Tugas NLP】
- 【Model pretrained】
- 【Tentang tf-idf】 hal-hal yang tidak Anda ketahui
- 【Tentang Word2Vec】 Hal yang Tidak Anda Ketahui
- 【Tentang FastText】 Hal yang Tidak Anda Ketahui
- 【Tentang Elmo】 Hal yang Tidak Anda Ketahui
- 【Tentang Bert】 Hal yang tidak Anda ketahui (Bagian 1)
- 【Tentang Bert】 Hal yang Tidak Anda Ketahui (Bagian 2)
- 【Tentang analisis kode sumber Bert saya tubuh utama】 hal -hal yang tidak Anda ketahui
- 【Tentang Analisis Kode Sumber Bert II Bab Pra-Pelatihan】 Hal yang Tidak Anda Ketahui
- 【Tentang Analisis Kode Sumber Bert III Bab Fine-Tuning】 Hal yang Tidak Anda Ketahui
- [Tentang Analisis Kode Sumber Bert IV Artikel Generasi Vektor Kalimat] Hal -hal yang tidak Anda ketahui
- 【Tentang Bert yang lebih besar, urutan yang lebih halus】 hal -hal yang tidak Anda ketahui (saya)
- 【Tentang Bert yang lebih besar, urutan yang lebih halus】 hal -hal yang tidak Anda ketahui (ii)
- 【Tentang Bert yang lebih besar, urutan yang lebih halus】 hal -hal yang tidak Anda ketahui (III)
- 【Penemuan Kata Baru】
- 【Tentang Penemuan Kata Baru】 Hal yang Tidak Anda Ketahui
- 【Ekstraksi kata kunci】
- 【Tentang Ekstraksi Kata Kunci】 Hal yang Tidak Anda Ketahui
- 【Tentang Keybert】 Hal yang Tidak Anda Ketahui
- 【Sistem yang disarankan dengan semua sisi】
- untuk dilanjutkan
6. Kerangka kerja
6.1 Pembelajaran Pytorch
- 【PYTORCH Versi Bahasa Inggris Manual Resmi】 https://pytorch.org/tutorials/
- PENDAHULUAN: PYTORCH VERSI Bahasa Inggris Manual Resmi: https://pytorch.org/tutorials/. Untuk siswa dengan bahasa Inggris yang baik, dokumen resmi Pytorch ini sangat dianjurkan, yang akan membawa Anda langkah demi langkah dari mulai menguasai. Dokumen ini merinci dasar-dasar cara membangun jaringan saraf yang dalam menggunakan Pytorch, serta sintaksis Pytorch dan beberapa kasus berkualitas tinggi.
- [Dokumen resmi Cina Pytorch] https://pytorch-cn.readthedocs.io/zh/latest/
- PENDAHULUAN: Pytorch Chinese Dokumen Resmi: https://pytorch-cn.readthedocs.io/zh/latest/. Tidak masalah jika Anda mengalami kesulitan membaca dokumen bahasa Inggris yang disebutkan di atas.
- [Tutorial Kode Pytorch untuk Algoritma Praktis] https://github.com/yunjey/pytorch-tutorial
- Pendahuluan: Ini adalah tutorial kode Pytorch yang lebih praktis pada algoritma. Dianjurkan agar Anda mempelajari dua tutorial Pytorch dasar di atas sebelum membaca dokumen ini.
- 【Buku Sumber Terbuka Pytorch】 https://github.com/zergtant/pytorch-handbook
- Pendahuluan: Pengantar Buku Sumber Terbuka: https://github.com/zergtant/pytorch-handbook. Ini adalah buku open source dengan tujuan membantu mereka yang ingin dan menggunakan Pytorch untuk pengembangan dan penelitian pembelajaran yang mendalam dengan cepat. Namun, dokumen ini tidak terlalu lengkap dan masih diperbarui.
- ["Hand-On Deep Learning" Pytorch] http://tangshusen.me/dive-into-dl-pytorch/#/
- 【Tutorial Praktis tentang Pelatihan Model Pytorch】 https://github.com/km1994/pytorch_tutorial
- 【Praktik Praktis NLP Pytorch Advanced】 https://github.com/km1994/nlp_pytorch_project
- 【ARK-NLP NLP Tool Library】 https://github.com/xiangking/ark-nlp
- Pendahuluan: Arsenal open source Wang Xiang terutama digunakan untuk mengumpulkan dan mereproduksi model NLP yang umum digunakan dalam bidang akademik dan pekerjaan.
6.2 Pembelajaran TensorFlow
- 【Situs web resmi TensorFlow】 https://www.tensorflow.org/tutorials
- PENDAHULUAN: Tutorial situs web resmi jelas merupakan materi pembelajaran yang paling harum
- 【Contoh TensorFlow】 https://github.com/aymericdamien/tensorflow-examples
- PENDAHULUAN: TensorFlow Tutorial dan Contoh Kode untuk Pemula: https://github.com/aymericdamien/tensorflow-examples. Tutorial ini tidak hanya menyediakan beberapa set data klasik, tetapi juga dimulai dari mengimplementasikan "Hello World" yang paling sederhana, hingga algoritma klasik untuk pembelajaran mesin, dan untuk model yang umum digunakan untuk jaringan saraf.
- 【TensorFlow Tutorial】 https://github.com/pkmital/tensorflow_tutorials
- Pendahuluan: Dari dasar -dasar TensorFlow hingga aplikasi proyek yang menarik: https://github.com/pkmital/tensorflow_tutorials. Ini juga merupakan tutorial untuk pemula, dari instalasi hingga latihan proyek, untuk mengajari Anda membangun jaringan saraf Anda sendiri.
- 【TensorFlow Tutorial Menggunakan Jupyter Notebook】 https://github.com/sjchoi86/tensorflow-101
- PENDAHULUAN: TensorFlow Tutorial yang ditulis dalam Python menggunakan Jupyter Notebook: https://github.com/sjchoi86/tensorflow-101. Tutorial ini adalah tutorial TensorFlow berdasarkan lingkungan pengembangan notebook Jupyter.
- 【Tensorflow_exercises】 https://github.com/terryum/tensorflow_exercises
- PENDAHULUAN: Latihan Kode TensorFlow: https://github.com/terryum/tensorflow_exercises. Manual Latihan Kode Tensorflow dari mudah menjadi sulit. Sangat cocok untuk teman yang belajar TensorFlow.
- 【Aplikasi Bert dan Albert dalam tugas hilir】 https://github.com/km1994/bert-for-task
- Pendahuluan: Implementasi Bert dalam tugas NLP
6.3 Keras Learning
- 【Bert4keras】 https://github.com/bojone/bert4keras
- PENDAHULUAN: Arsenal open source Sushen, versi Keras yang diimplementasikan kembali dari Transformer Model Library, berkomitmen untuk menggabungkan Transformer dan Keras dengan kode yang menyegarkan mungkin.
6.4 Pembelajaran Kerangka Pelatihan Terdistribusi
- Kategori pertama: Fungsi pelatihan terdistribusi yang datang dengan kerangka kerja pembelajaran yang mendalam. Seperti: TensorFlow, Pytorch, Mindspore, OneFlow, Paddlepaddle, dll.
- Kategori kedua: penskalaan dan pengoptimalan berdasarkan kerangka kerja pembelajaran mendalam yang ada (seperti Pytorch, Flax) untuk melakukan pelatihan terdistribusi. Seperti: Megatron-LM (Tensor Parallel), Deepspeed (Zero-DP), Colossal-AI (paralelisme model dimensi tinggi, seperti 2D, 2.5D, 3D), ALPA (paralelisme otomatis), dll.
7. Kompetisi
5.1 Kompetisi Domestik
- [Kompetisi Pengembang Iflytek] http://challenge.xfyun.cn/
- 【Ali Tianchi】 https://tianchi.aliyun.com/
- 【Biendata】 https://www.biendata.xyz/
- 【DataFountain】 https://www.datafountain.cn/
- 【Baidu Dayung Dayung】 https://aistudio.baidu.com/
5.2 Akun Resmi Persaingan
- 【Mapo Tofu Ai】
- Pendahuluan: Akan memperkenalkan beberapa acara terbaru yang dapat Anda ikuti
5.3 Arsenal kompetisi NLP
- [Perpustakaan Alat Arsenal NLP] https://github.com/tingfree/nlper-arsenal
- Pendahuluan: NLP Arsenal, yang terutama mencakup implementasi strategi kompetisi NLP, berbagai tutorial tugas, posting pengalaman, materi pembelajaran, dan waktu pertemuan.
- 【Solusi Sumber Chip2021-Task3-Open untuk tugas standar dalam istilah klinis】
- Kode Sumber GitHub
- Situs web evaluasi: http://cips-chip.org.cn/2021/eval3
- Semua kode didasarkan pada implementasi Ark-NLP open source kami. Tidak ada daftar untuk tugas standardisasi istilah klinis CHIP2021, sehingga debugging kode diselesaikan pada tugas standardisasi istilah klinis Cblue, kumpulan data pemrosesan informasi medis Tiongkok Tianchi.
- Alamat Ark-NLP: https://github.com/xiangking/ark-nlp
- Informasi Medis Tiongkok Pemrosesan Data Kumpulan CBlue: https://tianchi.aliyun.com/dataset/dataDetail?dataid=95414
- [CHIP2021 Medical Dialogal Penemuan Klinis Yin-Yang Diskriminasi Juara Rencana Sumber Terbuka]
- Kode Sumber GitHub
- Nama: Cblue: Benchmark Evaluasi Pemahaman Bahasa Biomedis Cina
- Tugas Evaluasi: CBLUE 1.0 terdiri dari kumpulan data kompetisi evaluasi akademik sebelumnya dari konferensi chip dan bisnis pencarian medis Ali Quark, termasuk ekstraksi informasi teks medis (pengakuan entitas, ekstraksi hubungan), normalisasi istilah medis, klasifikasi teks medis, penilaian hubungan hukuman medis dan total QA dari 8 sub-tugas.
- Jenis Tugas: Klasifikasi Teks, Kesamaan Teks, Pengakuan Entitas yang Dinamai, Ekstraksi Hubungan dan Standardisasi Terminologi (dapat dianggap sebagai entitas yang menghubungkan tugas tanpa konteks)
- Tautan Evaluasi: https://tianchi.aliyun.com/dataset/dataDetail?dataid=95414
- 【CBLUE-ALI Tianchi Chinese Medical NLP Ranking Baseline】 https://github.com/dataark/cblue-baseline
- [Kompetisi Data Besar Shandong-Event Klasifikasi Cerdas Baseline] https://github.com/xiangking/shandongdatacompetition2021-grid-events-classification-baseline
- Tugas Evaluasi: Berdasarkan data acara grid, mengekstrak dan menganalisis konten peristiwa dalam grid, membagi kategori peristiwa, dan membagi jenis urusan pemerintah tempat acara tersebut berada.
- Jenis Tugas: Klasifikasi Teks
- Tautan Evaluasi: http://data.sd.gov.cn/cmpt/cmptdetail.html?id=67
8. Corpus
8.1 Bahan NLP
- 【Nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
- PENDAHULUAN: Corpus Cina skala besar untuk NLP
8.2 Kutipan Sistem yang Disarankan
- 【Movielens】 https://grouplens.org/datasets/movielens/
- Pendahuluan: Dataset Movielens diselenggarakan oleh Gruplens Research Group di University of Minnesota (tidak terkait dengan penggunaan dataset kami). Movielens adalah kumpulan peringkat film, tersedia dalam berbagai ukuran. Kumpulan data dinamai 1m, 10m dan 20m karena mengandung peringkat 1, 10 dan 200.000. Kumpulan data terbesar menggunakan data dari sekitar 140.000 pengguna dan mencakup 27.000 film. Selain peringkat, data Movielens juga berisi informasi genre yang mirip dengan "barat" dan tag untuk aplikasi pengguna seperti "over the atas" dan "Arnold Schwarzenegger". Tag dan label genre ini berguna dalam membangun vektor konten. Vektor konten menyandikan informasi suatu item, seperti warna, bentuk, genre, atau atribut lainnya, benar -benar - yang dapat menjadi segala bentuk algoritma rekomendasi untuk berbasis konten.
- 【Buku-silang】
- Pendahuluan: Book-Crossings adalah dataset peringkat buku yang ditulis oleh Cai-Nicolas Ziegler berdasarkan data dari http://bookcrossing.com. Ini berisi 1,1 juta peringkat untuk 270.000 buku dari 90.000 pengguna. Skor berkisar antara 1 hingga 10 dan juga termasuk skor implisit.
- 【Last.fm】 http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- PENDAHULUAN: Last.FM menyediakan set data untuk rekomendasi musik. Untuk setiap pengguna dalam dataset, sertakan daftar artis mereka yang paling populer dan jumlah drama. Ini juga termasuk tag aplikasi pengguna yang dapat digunakan untuk membangun vektor konten.
- 【Agen kencan】 (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- Pendahuluan: Dataset ini berisi 17.359.346 peringkat anonim untuk 168.791 file konfigurasi dengan 135.359 pengguna Libimseti diekspor pada 4 April 2006.
- Lainnya: https://zhuanlan.zhihu.com/p/258566760
8.3 Alat Pelabelan
- Apakah Anda masih khawatir tidak menemukan anotator hubungan entitas?
- https://labelstud.io/
- Doccano
9. Bab Akun Resmi
- Hal -hal yang tidak Anda ketahui tentang NLP
- PENDAHULUAN: hal -hal yang tidak Anda ketahui tentang NLP
- Kamar sederhana CS
- PENDAHULUAN: Posting tentang pengalaman berbagi bos char siu.
- Dataark
- PENDAHULUAN: Dataark digerakkan oleh data dan berorientasi berbagi sumber terbuka, dan berkomitmen untuk penambangan data, inovasi algoritma dan pengembangan alat praktis.
- Sistem Rekomendasi Cerdas
- PENDAHULUAN: Fokus pada sistem rekomendasi cerdas, berikut adalah algoritma terkait rekomendasi yang paling komprehensif dan berbagi aplikasi industri.
- Datafuntalk
- PENDAHULUAN: Fokus pada berbagi dan komunikasi aplikasi Big Data dan Teknologi Kecerdasan Buatan. Berkomitmen untuk mencapai jutaan ilmuwan data.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
参考
- 关于大模型实践的一些总结