weixin_public_corpus
1.0.0
部分網絡抓取的微信公眾號的文章,已經去除HTML,只包含了純文本。每行一篇,是JSON格式,name是微信公眾號名字,account是微信公眾號ID,title是題目,content是正文。
數據用zip分卷壓縮過的, 沒有密碼。預覽可以看preview.json。
目前數據大約3G,數據會定期更新增加。
請只用於研究用途。
有問題或者特殊需求直接建Issue。
歡迎志同道合的小伙伴加入校寶一起來搞有意思的事情! https://www.xiaobaoonline.com/pc/contactjoin