このプロジェクトは、以前のプロジェクトの再起動バージョンです。以前のプロジェクトアドレスは次のとおりです。プロジェクトは更新されたままです。これは、Weiboターミネーターの作業バージョンです。このバージョンは、以前のバージョンにいくつかの最適化を行いました。ここでの究極の目標は、センチメント分析、対話コーパス、世論リスク管理、ビッグデータ分析、その他のアプリケーションなど、コーパスを一緒にクロールすることです。
更新:
更新を引くことができます。
いくつかの軽微な変更といくつかの貢献者のPRの後、コードはいくつかの小さな変更を受けました。基本的に、それはバグを修正し、いくつかのロジックを改善しており、変更は次のとおりです。
WeiboScraper has not attribute weibo_content 。新しいコードは修正されています。@fenceいくつかのコンテンツを変更するには、PRを送信します。
git pull origin master新しく更新されたバージョンを取得できます。同時に、UUIDを私に尋ね続けることを歓迎します。 contirbutor.txtでリストを定期的に公開します。私は最近、データのクリーニング、分類などと同様に、データマージの作業を行っています。マージの作業が完了した後、ビッグデータセットをすべての人に配布します。
以下の改善は、以前のバージョンに対して行われました。
もっと重要なのは! ! ! 、このバージョンでは、クローラーの知性が大幅に改善されました。クローラーが各IDをクロールすると、彼はIDのすべてのファンIDを自動的に取得します! !私があなたに与えているのはシードIDであり、シードIDは一部の有名人、企業、またはメディアのIDです。これらのシードIDから、他の何千ものシードIDを取得できます! !有名人のファンが34,000を持っている場合、初めて34,000 IDを取得してから、子供IDからクロールを続けることができます。各子供IDには100人のファンがあり、2回目は340万IDを取得できます! ! !十分ですか? ! ! !もちろん十分ではありません! ! !
私たちのプロジェクトは決して止まりません! ! !十分なコーパスが収穫されるまで続きます! ! !
(もちろん、実際にすべてのファンを獲得することはできませんが、これらで十分です。)
このバージョンの目標は、貢献者をターゲットにすることであり、ワークフローも非常に簡単です。
python3 main.py uuidを実行します。ここで、uuidによって指定されたIDがrawった後にクロールするファンIDが取得されることをここで説明させてください。私はまだディスカッショングループを投稿しています、そして誰もが追加できます:
QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023
Wechat:Jintianiloveuに友達を追加できます
(c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0