推廣蒐軍火庫
作者:楊夕
NLP論文學習筆記:https://github.com/km1994/nlp_paper_study
個人介紹:大佬們好,我叫楊夕,該項目主要是本人在研讀頂會論文和復現經典論文過程中,所見、所思、所想、所聞,可能存在一些理解錯誤,希望大佬們多多指正。
NLP 百面百搭地址:https://github.com/km1994/NLP-Interview-Notes
推薦系統百面百搭地址:https://github.com/km1994/RES-Interview-Notes
推廣蒐軍火庫:https://github.com/km1994/recommendation_advertisement_search
關注公眾號【關於NLP那些你不知道的事】 加入【NLP && 推薦學習群】一起學習! ! !
一、項目篇
1.1 目前業界可以下載到的一些大模型
- chatgpt:
- https://openai.com/blog/chatgpt
- 體驗地址:https://chat.openai.com/
- GLM-10B/130B
- OPT-2.7B/13B/30B/66B :
- 介紹:Meta開源的預訓練語言模型
- github: https://github.com/facebookresearch/metaseq
- paper: https://arxiv.org/pdf/2205.01068.pdf
- LLaMA-7B/13B/30B/65B :
- 介紹:Meta開源的基礎大語言模型
- github: https://github.com/facebookresearch/llama
- paper: https://arxiv.org/pdf/2302.13971v1.pdf
- Alpaca(LLaMA-7B):
- 介紹:斯坦福提出的一個強大的可複現的指令跟隨模型,種子任務都是英語,收集的數據也都是英文,因此訓練出來的模型未對中文優化
- github: https://github.com/tatsu-lab/stanford_alpaca
- Chinese-LLaMA-Alpaca github: https://github.com/ymcui/Chinese-LLaMA-Alpaca
- BELLE(BLOOMZ-7B/LLaMA-7B):
- 介紹:本項目基於Stanford Alpaca,針對中文做了優化,模型調優僅使用由ChatGPT生產的數據(不包含任何其他數據)
- ChatGLM-6B :
- 介紹:中英雙語的對話語言模型
- github: https://github.com/THUDM/ChatGLM-6B/
- Bloom-7B/13B/176B:
- 介紹:可以處理46 種語言,包括法語、漢語、越南語、印度尼西亞語、加泰羅尼亞語、13 種印度語言(如印地語)和20 種非洲語言。其中,Bloomz系列模型是基於xP3 數據集微調。 推薦用於英語的提示(prompting);Bloomz-mt系列模型是基於xP3mt 數據集微調。推薦用於非英語的提示(prompting)
- github: https://huggingface.co/bigscience/bloom
- paper: https://arxiv.org/pdf/2211.05100.pdf
- Vicuna(7B/13B):
- 介紹:由UC Berkeley、CMU、Stanford和UC San Diego的研究人員創建的Vicuna-13B,通過在ShareGPT 收集的用戶共享對話數據中微調LLaMA 獲得。其中,使用GPT-4 進行評估,發現Vicuna-13B 的性能在超過90%的情況下實現了與ChatGPT和Bard相匹敵的能力;同時,在90% 情況下都優於LLaMA 和Alpaca 等其他模型。而訓練Vicuna-13B 的費用約為300 美元。不僅如此,它還提供了一個用於訓練、服務和評估基於大語言模型的聊天機器人的開放平台:FastChat。
- Baize:
- 介紹:白澤是在LLaMA上訓練的。目前包括四種英語模型:白澤-7B、13B 、 30B(通用對話模型)以及一個垂直領域的白澤-醫療模型,供研究/ 非商業用途使用,併計劃在未來發布中文的白澤模型。白澤的數據處理、訓練模型、Demo 等全部代碼已經開源。
- LLMZoo:
- 介紹:來自香港中文大學和深圳市大數據研究院團隊推出的一系列大模型,如:Phoenix(鳳凰) 和Chimera等-MOSS:由複旦NLP 團隊推出的MOSS 大語言模型。
- 小羊駝FastChat
- github: https://github.com/lm-sys/FastChat
- MiniGPT-4
- github: https://github.com/Vision-CAIR/MiniGPT-4
1.2【LLMs 入門實戰序列連載】
清華大學開源中文版ChatGLM-6B模型學習與實戰【ChatGLM-6B入門-二】清華大學開源中文版ChatGLM-6B模型微調實戰【ChatGLM-6B入門-三】ChatGLM 特定任務微調實戰【ChatGLM-6B入門-四】ChatGLM + LoRA 進行finetune 【LLMs 入門實戰—— 五】Stanford Alpaca 7B 模型學習與實戰【LLMs學習】關於大模型實踐的一些總結ChatGLM-6B 小編填坑記【LLMs 入門實戰—— 六】Chinese-LLaMA-Alpaca 模型學習與實戰【LLMs 入門實戰—— 七】小羊駝FastChat 模型學習與實戰【LLMs 入門實戰—— 八】MiniGPT-4 模型學習與實戰
1.3 NLP 項目軍火庫學習
- 【知識圖譜構建DeepKg】https://github.com/powerycy/DeepKg
- 介紹:本項目致力於知識圖譜的構建,目前正一點一點搭建其方法,也希望能幫助更多的人,
1.4 推薦系統項目軍火庫學習
- 【fun-rec】https://github.com/datawhalechina/fun-rec
- 介紹:主要是針對具有機器學習基礎並想找推薦算法崗位的同學,教程由推薦算法基礎、推薦算法入門賽、新聞推薦項目及推薦算法面經組成,形成了一個完整的從基礎到實戰再到面試的閉環。
- 【RecSys】https://github.com/qcymkxyc/RecSys
1.5 搜索引擎項目軍火庫學習
- 【搜索引擎項目開源】https://github.com/zuo369301826/Search_Project
- 項目介紹:模擬百度搜索的方式實現站內搜索引擎,整個項目分為兩大部分,HTTP服務器和搜索服務器:HTTP服務器來獲取用戶的請求,並分析請求以便獲取我們所需要的特定信息,之後將信息傳給搜索服務器;搜索服務器會根據這些信息進行處理並檢索數據,將結果反饋給HTTP服務器,HTTP服務器收到索引結果將其打印到頁面上
- 項目特點:1. 使用到Google提供的protobuf, gflag, glog 等開源框架來完成開發;2. 搜索服務器利用RPC協議,基於百度開源的高性能RPC框架sofa-pbrpc 實現;3.搜索原理是以正排索引加倒排索引相結合的方式進行檢索;4. HTTP服務器使用epoll模型,提高了並發的響應速度;5. HTTP服務器以CGI的方式調用搜索客戶端完成檢索功能
- 【Elastic】https://www.elastic.co/cn/
- 介紹:Elasticsearch 是一個分佈式、RESTful 風格的搜索和數據分析引擎,能夠解決不斷湧現出的各種用例。 作為Elastic Stack 的核心,它集中存儲您的數據,幫助您發現意料之中以及意料之外的情況。
- 【Nutch】http://nutch.sourceforge.net/docs/zh/about.html
- 介紹:Nutch 是一個剛剛誕生開放源代碼(open-source)的web搜索引擎。在它的主頁有中文詳細的說明。
- 【Lucene】http://jakarta.apache.org/lucene/docs/index.html
- 介紹:Apache Lucene是一個開放源程序的搜尋器引擎,利用它可以輕易地為Java軟件加入全文搜尋功能。 Lucene的最主要工作是替文件的每一個字作索引,索引讓搜尋的效率比傳統的逐字比較大大提高,Lucen提供一組解讀,過濾,分析文件,編排和使用索引的API,它的強大之處除了高效和簡單外,是最重要的是使使用者可以隨時應自已需要自訂其功能。
- 【Egothor】http://www.egothor.org/
- 介紹:Egothor是一個用Java編寫的開源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能應用於任何環境的應用,既可配置為單獨的搜索引擎,又能用於你的應用作為全文檢索之用。
- 【Oxyus】http://oxyus.sourceforge.net/
- 【BDDBot】http://www.twmacinta.com/bddbot/
- 介紹:BDDBot是一個簡單的易於理解和使用的搜索引擎。它目前在一個文本文件(urls.txt)列出的URL中爬行,將結果保存在一個數據庫中。它也支持一個簡單的Web服務器,這個服務器接受來自瀏覽器的查詢並返迴響應結果。它可以方便地集成到你的Web站點中。
1.6 計算廣告項目軍火庫學習
- 【美團DSP廣告策略實踐】https://tech.meituan.com/2017/05/05/mt-dsp.html
- 【互聯網廣告與計算廣告學入門】http://web.stanford.edu/class/msande239/
二、Ai 神器
- ChatGPT Ai 神器
- 【Ai神器】對話式AI——ChatGPT https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【AI神器】GPT-4 在線體驗網站chatmindai.cn
- 【AI神器】ChatGPT3.5免登陸,國內可用https://chat23.yqcloud.top/
- Forefront Chat chat.forefront.ai
- Poe poe.com/GPT-4
- 3D Ai 神器
- Masterpiece Studio: https://xiaobot.net/p/SuperIndividual
- Masterpiece Studio:https://masterpiecestudio.com
- G3DAI {Jedi}:https://g3d.ai
- Ponzu:https://www.ponzu.gg
- PrometheanAI:https://www.prometheanai.com
- Leonardo.Ai:https://leonardo.ai
- Art Ai 神器
- Dream Up (Deviant Art):https://www.dreamup.com
- NightCafe Studio:https://creator.nightcafe.studio
- Midjourney:https://www.midjourney.com/home/
- Artbreeder:https://www.artbreeder.com
- Wombo:https://www.wombo.art
- Audio Editing Ai 神器
- Podcastle : Editing https://podcastle.ai
- Cleanvoice : Audio Editing https://cleanvoice.ai
- Code Assistant Ai 神器
- CodeSquire https://codesquire.ai
- Buildt Code Assistant https://www.buildt.ai
- Hey, GitHub! Code Assistant https://githubnext.com/projects/hey-github
- 持續更新
三、小白AI 入門學習
3.1 機器學習入門
- 【吳恩達機器學習系列課程】 https://www.bilibili.com/video/BV164411b7dx?from=search&seid=18138466354258018449&spm_id_from=333.337.0.0
3.2 NLP 入門
- 【2021吳恩達深度學習-NLP序列模型】https://www.bilibili.com/video/BV1Co4y1279R?from=search&seid=17563746002586971760&spm_id_from=333.337.0.0
- 【知識圖譜入門】
- 浙大圖譜講義| 第一講-知識圖譜概論— 第1節-語言與知識
- 浙大圖譜講義| 第一講-知識圖譜概論— 第2節-知識圖譜的起源
- 圖譜講義| 第一講-第3節-知識圖譜的價值
- 圖譜講義| 第一講-第4節-知識圖譜的技術內涵
- 圖譜講義| 第二講-第1節-什麼是知識表示
3.3 計算廣告入門
- 【互聯網廣告與計算廣告學入門】http://web.stanford.edu/class/msande239/
- Lecture 1: Introduction, Supplementary notes
- Lecture 2: Marketplace design, In class presentation, Supplementary notes
- Lecture 3: Sponsored search 1, In class presentation
- Lecture 4: Sponsored search 2, In class presentation
- Lecture 5: Display advertising 1, In class presentation
- Lecture 6: Display advertising 2, In class presentation
- Lecture 7: Targeting, In class presentation
- Lecture 8: Recommender systems, In class presentation 1, In class presentation 2
- Lecture 9: Mobile, video, and other emerging formats, In class presentation 1, In class presentation 2
- 【劉鵬– 計算廣告學(推薦)】http://study.163.com/course/introduction.htm?courseId=321007
- 介紹:劉鵬老師目前在360任商業產品首席架構師,在互聯網廣告領域實戰經驗豐富。其課程《計算廣告學》內容深入淺出,由廣告歷史模式到新近技術,非常適合剛接觸領域的朋友學習。
- 廣告的基本知識
- 合約廣告系統
- 受眾定向
- 競價廣告系統
- 搜索廣告與廣告網絡Demand技術
- 廣告交易市場
- 【百度– 計算廣告學】http://openresearch.baidu.com/courses/1231.jhtml
- 計算廣告學概述
- 搜索引擎廣告原理、技術和工程實踐
- 內容匹配廣告與展示廣告原理、技術和實踐
- 【王勇睿– 互聯網廣告算法與系統實踐】http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- 介紹:王老師是淘寶定向廣告算法負責人。其課程結合了淘寶的廣告實踐經驗,從廣告理論到系統的技術實踐,非常值得從業技術人員學習。
- 互聯網廣告簡介
- 搜索廣告
- 定向廣告
- 實時廣告競價
- 廣告系統架構及挑戰
- 【UCS -計算廣告學入門】http://classes.soe.ucsc.edu/ism293/Spring09/index_archivos/Page456.html
- Introduction and Overview
- Information Retrieval (IR) for Computational
- Marketplace design
- Machine Learning Techniques
- Sponsored Search I
- Sponsored Search II
- Graphical ads and guaranteed delivery
- Contextual Advertising I
- Contextual Advertising II
- Behavioral Targeting (BT)
四、推廣蒐論文學習筆記
- 【NLP 學習筆記】
- 【Transformer】
- 【關於Efficient Transformers: A Survey】 那些你不知道的事
- 【Bert 模型壓縮】
- 【關於自訓練+ 預訓練= 更好的自然語言理解模型】 那些的你不知道的事
- 【關於BERT to TextCNN】那些你不知道的事
- 【命名實體識別】
- 【關於嵌套實體識別之Biaffine 】 那些你不知道的事
- paperShape 之Biaffine
- paperShape 之盤點近年來的命名實體識別
- 【關於Continual Learning for NER】那些你不知道的事
- 【關係抽取】
- 【關於關係抽取之HBT】 那些的你不知道的事
- 從頭來看關係抽取
- 從頭來看關係抽取-遠程監督來襲
- 【文檔級關係抽取】
- 【關於ATLOP】 那些的你不知道的事
- 論文小綜| 文檔級關係抽取方法(上)
- 論文小綜| 文檔級關係抽取方法(下)
- 【文本匹配】
- 【關於Sentence-BERT】 那些你不知道的事
- Facebook: 億級向量相似度檢索庫Faiss 原理+應用
- 句向量新方案CoSENT實踐記錄
- 【實體鏈指】
- 【文本糾錯】
- 【問答機器人】
- TopicShare分享之場景式與檢索式問答機器人
- 【對話系統】
- 《【社區說】一起來聊聊Rasa 3.0》 不完全筆記
- (一)對話機器人概述
- (二)RASA開源引擎介紹
- (三)RASA NLU語言模型
- (四)RASA NLU分詞器
- (五)RASA NLU特徵生成器
- (六)RASA NLU意圖分類器
- (七)RASA NLU實體提取器
- (九)RASA自定義pipeline組件
- (十)RASA CORE Policy
- (十一)RASA CORE Action
- (十二)RASA Domain
- (十三)RASA 訓練數據
- (十四)RASA story
- (十五)Rasa Rules
- (十六)RASA最佳實踐
- (十七)基於RASA開始中文機器人
- (十八)基於RASA開始中文機器人實現機制
- (十九)基於知識圖譜的問答系統(KBQA)
- (二十)基於閱讀理解的問答系統
- DIET:Dual Intent and Entity Transformer——RASA論文翻譯
- (二十一)RASA應用常見問題
- (二十二)RASA的超參數優化
- (二十三)機器人測試與評估
- (二十四)利用Rasa Forms創建上下文對話助手
- 【KBQA】
- 【關於Complex KBQA】 那些你不知道的事(上)
- 【關於Complex KBQA】 那些你不知道的事(中)
- 【關於Complex KBQA】 那些你不知道的事(下)
- 【事件抽取】
- 【Prompt Tuning】
- 【新詞發現】
- 【Text to SQL】
- 【推薦系統學習筆記】
- 推薦系統技術演進趨勢:召回篇
- 推薦系統技術演進趨勢:排序篇
- 推薦系統技術演進趨勢:重排篇
- 推薦系統是如何找到相似用戶的?
- 萬字長文詳述對話推薦系統的邏輯與演化
- 推薦系統中模型自適應相關技術梳理總結
- 【GCN 學習筆記】
- 【計算廣告論文及資料列表github repo】
- 【推薦系統論文及資料列表github repo】
- 【搜尋引擎】
- 【關於PLM for Web-scale Retrieval in Baidu Search 】 那些你不知道的事
- EMNLP 2021 | RocketQAv2:稠密段落檢索和段落精排的聯合訓練方法
五、推廣蒐面經篇
- 【 NLP百面百搭】
- 【機器學習】
- 【關於正則化】那些你不知道的事
- 【關於優化算法】那些你不知道的事
- 【關於BatchNorm vs LayerNorm】那些你不知道的事
- 【關於歸一化】那些你不知道的事
- 【關於過擬合和欠擬合】那些你不知道的事
- 【深度學習】
- 【關於CNN】那些你不知道的事
- 【關於Attention 】那些你不知道的事
- 【關於Transformer】 那些的你不知道的事(上)
- 【關於Transformer】 那些的你不知道的事(中)
- 【關於Transformer】 那些的你不知道的事(下)
- 【NLP任務篇】
- 【預訓練模型】
- 【關於TF-idf】 那些你不知道的事
- 【關於Word2vec】 那些你不知道的事
- 【關於fastText】 那些你不知道的事
- 【關於Elmo】 那些你不知道的事
- 【關於Bert】 那些的你不知道的事(上)
- 【關於Bert】 那些的你不知道的事(下)
- 【關於Bert 源碼解析I 之主體篇】 那些的你不知道的事
- 【關於Bert 源碼解析II 之預訓練篇】 那些的你不知道的事
- 【關於Bert 源碼解析III 之微調篇】 那些的你不知道的事
- 【關於Bert 源碼解析IV 之句向量生成篇】 那些的你不知道的事
- 【關於Bert 越大越精序列】那些的你不知道的事(一)
- 【關於Bert 越大越精序列】那些的你不知道的事(二)
- 【關於Bert 越大越精序列】那些的你不知道的事(三)
- 【新詞發現】
- 【關鍵詞提取】
- 【關於關鍵詞提取】 那些你不知道的事
- 【關於KeyBERT 】 那些你不知道的事
- 【推薦系統百面百搭】
- 待續
六、框架篇
6.1 Pytorch 學習
- 【PyTorch英文版官方手冊】https://pytorch.org/tutorials/
- 介紹:PyTorch英文版官方手冊:https://pytorch.org/tutorials/。對於英文比較好的同學,非常推薦該PyTorch官方文檔,一步步帶你從入門到精通。該文檔詳細的介紹了從基礎知識到如何使用PyTorch構建深層神經網絡,以及PyTorch語法和一些高質量的案例。
- 【PyTorch中文官方文檔】https://pytorch-cn.readthedocs.io/zh/latest/
- 介紹:PyTorch中文官方文檔:https://pytorch-cn.readthedocs.io/zh/latest/。閱讀上述英文文檔比較困難的同學也不要緊,我們為大家準備了比較官方的PyTorch中文文檔,文檔非常詳細的介紹了各個函數,可作為一份PyTorch的速查寶典。
- 【偏算法實戰的PyTorch代碼教程】https://github.com/yunjey/pytorch-tutorial
- 介紹:這是一個比較偏算法實戰的PyTorch代碼教程,在github上有很高的star,https://github.com/yunjey/pytorch-tutorial。建議大家在閱讀本文檔之前,先學習上述兩個PyTorch基礎教程。
- 【Pytorch 開源書籍】https://github.com/zergtant/pytorch-handbook
- 介紹:介紹一本開源書籍:https://github.com/zergtant/pytorch-handbook。這是一本開源的書籍,目標是幫助那些希望和使用PyTorch進行深度學習開發和研究的朋友快速入門。但本文檔不是內容不是很全,還在持續更新中。
- 【《動手學深度學習》pytorch】http://tangshusen.me/Dive-into-DL-PyTorch/#/
- 【Pytorch模型訓練實用教程】https://github.com/km1994/PyTorch_Tutorial
- 【Pytorch 進階NLP 實戰】https://github.com/km1994/NLP_pytorch_project
- 【ark-nlp NLP 工具庫】https://github.com/xiangking/ark-nlp
- 介紹:王翔大佬開源的軍火庫,主要是收集和復現學術與工作中常用的NLP模型
6.2 tensorflow 學習
- 【TensorFlow 官網】https://www.tensorflow.org/tutorials
- 【TensorFlow Examples】https://github.com/aymericdamien/TensorFlow-Examples
- 介紹:適合初學者的Tensorflow教程和代碼示例:https://github.com/aymericdamien/TensorFlow-Examples。該教程不光提供了一些經典的數據集,更是從實現最簡單的“Hello World”開始,到機器學習的經典算法,再到神經網絡的常用模型,一步步帶你從入門到精通,是初學者學習Tensorflow的最佳教程。
- 【TensorFlow Tutorials】https://github.com/pkmital/tensorflow_tutorials
- 介紹:從Tensorflow基礎知識到有趣的項目應用:https://github.com/pkmital/tensorflow_tutorials。同樣是適合新手的教程,從安裝到項目實戰,教你搭建一個屬於自己的神經網絡。
- 【Tensorflow Tutorials using Jupyter Notebook】https://github.com/sjchoi86/Tensorflow-101
- 介紹:使用Jupyter Notebook用Python語言編寫的TensorFlow教程:https://github.com/sjchoi86/Tensorflow-101。本教程是基於Jupyter Notebook開發環境的Tensorflow教程,Jupyter Notebook是一款非常好用的交互式開發工具,不僅支持40多種編程語言,還可以實時運行代碼、共享文檔、數據可視化、支持markdown等,適用於機器學習、統計建模數據處理、特徵提取等多個領域。
- 【TensorFlow_Exercises】https://github.com/terryum/TensorFlow_Exercises
- 介紹:Tensorflow代碼練習:https://github.com/terryum/TensorFlow_Exercises。一個從易到難的Tensorflow代碼練習手冊。非常適合學習Tensorflow的小伙伴。
- 【BERT和ALBERT在下游任務中的應用】https://github.com/km1994/bert-for-task
6.3 keras 學習
- 【bert4keras】https://github.com/bojone/bert4keras
- 介紹:蘇神開源的軍火庫,重新實現的keras版的transformer模型庫,致力於用盡可能清爽的代碼來實現結合transformer和keras。
6.4 分佈式訓練框架學習
- 第一類:深度學習框架自帶的分佈式訓練功能。如:TensorFlow、PyTorch、MindSpore、Oneflow、PaddlePaddle等。
- 第二類:基於現有的深度學習框架(如:PyTorch、Flax)進行擴展和優化,從而進行分佈式訓練。如:Megatron-LM(張量並行)、DeepSpeed(Zero-DP)、Colossal-AI(高維模型並行,如2D、2.5D、3D)、Alpa(自動並行)等
七、競賽篇
5.1 國內競賽
- 【科大訊飛開發者大賽】http://challenge.xfyun.cn/
- 【阿里天池】https://tianchi.aliyun.com/
- 【biendata】https://www.biendata.xyz/
- 【datafountain】https://www.datafountain.cn/
- 【百度飛槳】https://aistudio.baidu.com/
5.2 競賽公眾號
5.3 NLP 競賽軍火庫
- 【NLP人軍火庫工具庫】https://github.com/TingFree/NLPer-Arsenal
- 介紹:NLP人軍火庫,主要收錄NLP競賽策略實現、各任務教程、經驗貼、學習資料以及會議時間等
- 【CHIP2021-Task3-臨床術語標準化任務開源方案】
- github 源碼
- 評測網站: http://cips-chip.org.cn/2021/eval3
- 所有的代碼都是基於我們開源的ark-nlp實現。 本次CHIP2021的臨床術語標準化任務是沒有A榜的,所以代碼調試都是在天池的中文醫療信息處理數據集CBLUE的臨床術語標準化任務上完成的
- ark-nlp地址:https://github.com/xiangking/ark-nlp
- 中文醫療信息處理數據集CBLUE:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414
- 【CHIP2021醫學對話臨床發現陰陽性判別任務冠軍開源方案】
- github 源碼
- 名稱:CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark
- 測評任務:CBLUE 1.0是由CHIP會議往屆的學術評測比賽和阿里夸克醫療搜索業務的數據集組成,包括醫學文本信息抽取(實體識別、關係抽取)、醫學術語歸一化、醫學文本分類、醫學句子關係判定和醫學QA共5大類任務8個子任務。
- 任務類型:文本分類、文本相似、命名實體識別、關係抽取和術語標準化(可以看成沒有上下文的實體鏈接任務)
- 測評鏈接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414
- 【CBLUE-阿里天池中文醫療NLP打榜Baseline】https://github.com/DataArk/CBLUE-Baseline
- 【山東大數據競賽—網格事件智能分類baseline】 https://github.com/xiangking/ShandongDataCompetition2021-grid-events-classification-baseline
- 測評任務:基於網格事件數據,對網格中的事件內容進行提取分析,對事件的類別進行劃分,具體為根據提供的事件描述,對事件所屬政務類型進行劃分
- 任務類型:文本分類
- 測評鏈接:http://data.sd.gov.cn/cmpt/cmptDetail.html?id=67
八、語料篇
8.1 NLP 語料
- 【nlp_chinese_corpus 】https://github.com/brightmart/nlp_chinese_corpus
- 介紹:大規模中文自然語言處理語料Large Scale Chinese Corpus for NLP
8.2 推薦系統語料
- 【MovieLens】https://grouplens.org/datasets/movielens/
- 介紹:MovieLens數據集由GroupLens研究組在University of Minnesota — 明尼蘇達大學(與我們使用數據集無關)中組織的。 MovieLens是電影評分的集合,有各種大小。 數據集命名為1M,10M和20M,是因為它們包含1,10和20萬個評分。 最大的數據集使用約14萬用戶的數據,並覆蓋27,000部電影。 除了評分之外,MovieLens數據還包含類似“Western”的流派信息和用戶應用的標籤,如“over the top”和“Arnold Schwarzenegger”。 這些流派標記和標籤在構建內容向量方面是有用的。內容向量對項目的信息進行編碼,例如顏色,形狀,流派或真正的任何其他屬性- 可以是用於基於內容的推薦算法的任何形式。
- 【Book-Crossings】
- 介紹:Book-Crossings是由Cai-Nicolas Ziegler根據http://bookcrossing.com的數據編寫的圖書評分數據集。 它包含90000個用戶的270000本書的110萬個評分。評分範圍從1到10,還包括隱性評分。
- 【Last.fm】http://www2.informatik.uni-freiburg.de/~cziegler/BX/
- 介紹:Last.fm提供音樂推薦的數據集。 對於數據集中的每個用戶,包含他們最受歡迎的藝術家的列表以及播放次數。它還包括可用於構建內容向量的用戶應用標籤。
- 【Dating Agency】(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)
- 介紹:該數據集包含2006年4月4日導出的135,359位LibimSeTi用戶對168,791個配置文件的17,359,346個匿名評分。
- 其他:https://zhuanlan.zhihu.com/p/258566760
8.3 標註工具篇
- 你還在為找不到實體關係標註器而煩惱麼?
- https://labelstud.io/
- doccano
九、公眾號篇
- 關於NLP那些你不知道的事
- CS的陋室
- 介紹:叉燒大佬的經驗分享帖,遇到問題先翻該公眾號,可能會有意想不到的收穫。
- DataArk
- 介紹:DataArk以數據為驅動、以開源分享為導向,致力於數據挖掘、算法創新和實用工具的開發。
- 智能推薦系統
- 介紹:專注於智能推薦系統,這裡有最新最全的個性化推薦相關算法和行業應用分享,歡迎關注,和你在推薦的海洋中一起遨遊,共同探索未知新世界。
- DataFunTalk
- 介紹:專注於大數據、人工智能技術應用的分享與交流。致力於成就百萬數據科學家。定期組織技術分享直播,並整理大數據、推薦/搜索算法、廣告算法、NLP自然語言處理算法、智能風控、自動駕駛、機器學習/深度學習等技術應用文章。
- RUC Al Box
- 介紹:本公眾號主要關注使用人工智能技術來解決自然語言處理與社交媒體數據挖掘的研究內容。分享Al前沿,解讀熱點論文。
- NewBeeNLP
- 開放知識圖譜
- WeData365
- 介紹:學習【搜索引擎】 的小伙伴一定要關注,因為有很多【搜索引擎】 乾貨分享
- 科學空間
- 介紹:蘇神的公眾號,每週四蘇神都會開源他的研究筆記。
- 老劉說NLP
- 介紹:360人工智能研究院大佬劉煥勇劉大佬的公眾號,定期發布語言資源、工程實踐、技術總結等內容。
- 數據拾光者
- 介紹:學習【廣告】 的小伙伴一定要關注,因為有很多【廣告】 乾貨分享
- 泛函的範
- 計算廣告那些事
- 介紹:學習【廣告】 的小伙伴一定要關注,因為有很多【廣告】 乾貨分享
- 藥老算法
- 介紹:學習【搜索引擎】 的小伙伴一定要關注,因為有很多【搜索引擎】 乾貨分享
- 機器學習算法與自然語言處理
- 介紹:一個有情懷的公眾號。機器學習、自然語言處理、算法等知識集中營、期待與你相遇~
- 王喆的機器學習筆記
- AINLP
- 介紹:關注AI、NLP、機器學習、推薦系統、計算廣告等相關技術。公眾號可直接對話雙語聊天機器人,嘗試自動對聯、作詩機、藏頭詩生成器,調戲誇誇機器人、彩虹屁生成器,使用中英翻譯,查詢相似詞,測試NLP相關工具包。
- 李rumor
- 夕小瑤的賣萌屋
- 介紹:自然語言處理、計算機視覺、信息檢索、推薦系統、機器學習
十、學習筆記
- 科學空間:
- 地址:https://spaces.ac.cn/
- 介紹:蘇神經驗學習筆記分享
- 魔法學院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推薦系統| 廣告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推薦系統
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署筆記
- Bert與TensorRT部署手冊,享受絲滑的順暢
參考
- 關於大模型實踐的一些總結