weibo_terminator_workflowダウンロードweibo_terminator_workflowソースコードダウンロード

weibo_terminator_workflow

その他のソースコード

1.0.0

ダウンロード

Weiboターミネーターワークフロー

このプロジェクトは、以前のプロジェクトの再起動バージョンです。以前のプロジェクトアドレスは次のとおりです。プロジェクトは更新されたままです。これは、Weiboターミネーターの作業バージョンです。このバージョンは、以前のバージョンにいくつかの最適化を行いました。ここでの究極の目標は、センチメント分析、対話コーパス、世論リスク管理、ビッグデータ分析、その他のアプリケーションなど、コーパスを一緒にクロールすることです。

更新2017-5-16

更新：

最初のCookieの取得ロジックを調整し、プログラムがCookieを検出しない場合、それは終了し、より多くのコンテンツのクロールとクラッシュを防ぎます。
Weiboscrapermクラスが追加されましたが、まだ建設中です。送信PR実装は大歓迎です。このクラスは、主に別のWeiboドメイン名、つまりモバイルドメイン名からrawっていることを実装しています。

更新を引くことができます。

更新2017-5-15

いくつかの軽微な変更といくつかの貢献者のPRの後、コードはいくつかの小さな変更を受けました。基本的に、それはバグを修正し、いくつかのロジックを改善しており、変更は次のとおりです。

保存エラーの問題を修正しました。最初にプッシュするときは、クローンコードをプルする必要があります。
WeiboScraper has not attribute weibo_content 。新しいコードは修正されています。

@fenceいくつかのコンテンツを変更するには、PRを送信します。

元の固定30Sの休憩はランダムな時間に置き換えられ、特定のパラメーターは自分で定義できます。
Big_v_ids_fileを追加して、ファンのために保存された有名人のIDを記録しました。 TXT形式を使用して、貢献者が手動で追加および削除することを容易にします
両方の関数のクロールページは、ブレークポイントがcraって繰り返されることを避けるために、ページ+1に変更されました。
オリジナルの「すべてのweiboとコメントをIDをrawった後のコメント」を変更して、「ツイートをrawった後、ツイートをrawった後のコメントをrawった後に保存する」
（オプション）それぞれ保存する2つの場所と3つの場所があるため、ファイルを個別にファイルとして保存する部品を配置します。

git pull origin master新しく更新されたバージョンを取得できます。同時に、UUIDを私に尋ね続けることを歓迎します。 contirbutor.txtでリストを定期的に公開します。私は最近、データのクリーニング、分類などと同様に、データマージの作業を行っています。マージの作業が完了した後、ビッグデータセットをすべての人に配布します。

改善する

以下の改善は、以前のバージョンに対して行われました。

あまり気を散らすことなく、トピックに直接移動し、IDを与え、すべてのweibo、weiboの数、ファンの数、すべてのweiboコンテンツ、ユーザーのコンテンツをコメントします。
以前のバージョンとは異なり、今回の哲学は、すべてのデータを3つのピクルスファイルに保存し、辞書ファイルに保存することです。これの目的は、ブレークポイントクロールを促進することです。
同時に、rawったクローラーは再びcrawとしません。つまり、クローラーはクロールされたIDを覚えています。各IDがすべてのコンテンツを取得した後、クロールされたものとしてマークされます。
さらに、WeiboのコンテンツとWeiboのコメントは別々に分離されています。 Weiboコンテンツのraw状に中断があります。二度目は再びrawいなくなり、中断されたページ番号は中断されたページ番号からcraい続けます。
もっと重要なのは！！！各IDクロールは互いに影響を与えません。ピクルスファイルから必要なIDのIDコンテンツを直接取得でき、処理を行うことができます！！
さらに、新しいクロール対策戦略がテストされ、採用された遅延メカニズムはうまく機能することができましたが、完全に制御されていませんでした。

もっと重要なのは！！！ 、このバージョンでは、クローラーの知性が大幅に改善されました。クローラーが各IDをクロールすると、彼はIDのすべてのファンIDを自動的に取得します！！私があなたに与えているのはシードIDであり、シードIDは一部の有名人、企業、またはメディアのIDです。これらのシードIDから、他の何千ものシードIDを取得できます！！有名人のファンが34,000を持っている場合、初めて34,000 IDを取得してから、子供IDからクロールを続けることができます。各子供IDには100人のファンがあり、2回目は340万IDを取得できます！！！十分ですか？！！！もちろん十分ではありません！！！

私たちのプロジェクトは決して止まりません！！！十分なコーパスが収穫されるまで続きます！！！

（もちろん、実際にすべてのファンを獲得することはできませんが、これらで十分です。）

ワークフロー

このバージョンの目標は、貢献者をターゲットにすることであり、ワークフローも非常に簡単です。

uuidを取得します。このUUIDは、distribution_ids.pklの2〜3 IDを呼び出すことができます。これは私たちのシードIDです。もちろん、すべてのIDを直接取得することもできます。ただし、重複した作業を防ぐために、私からUUIDを申請することをお勧めします。あなたはあなたの責任者のみです。 rawう後、あなたは私に最終ファイルをフィードバックします。重い負荷を整理した後、最後の大きなコーパスをすべての人に分配します。
python3 main.py uuidを実行します。ここで、uuidによって指定されたIDがrawった後にクロールするファンIDが取得されることをここで説明させてください。
終わり！

話し合う

私はまだディスカッショングループを投稿しています、そして誰もが追加できます：

 QQ
AI智能自然语言处理: 476464663
Tensorflow智能聊天Bot: 621970965
GitHub深度学习开源交流: 263018023

Wechat：Jintianiloveuに友達を追加できます

著作権

 (c) 2017 Jin Fagang & Tianmu Inc. & weibo_terminator authors LICENSE Apache 2.0

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-04-18
サイズ 22.91KB
から Github

weibo_terminator_workflow

Weiboターミネーターワークフロー

更新2017-5-16

更新2017-5-15

改善する

ワークフロー

話し合う

著作権

OpenCore_NO_ACPI_Build

nspanel_pro_tools_apk

zkwork_aleo_gpu_worker

nextcloud_share_url_downloader

犬キツネバニー

Lihua データ分析エンジン無料版 3.0_検索_ナビゲーション_コレクション_世論_ランキング_api

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express