ネットからデータを裂き、痕跡を残しません。 Webスクレイピングの未来へようこそ。
Cyberscraper 2077は、単なるWebスクレイピングツールではなく、データ抽出の将来を垣間見ることができます。サイバーパンクの世界のネオンに照らされた通りから生まれたこのAIを搭載したスクレーパーは、Openai、Gemini、Locallmモデルを使用してWebの防御をスライスし、必要なデータを比類のない精度とスタイルで抽出します。
あなたがコーポデータアナリスト、ストリートスマートネットランナーであろうと、デジタル領域から情報を引き出したい人であろうと、Cyberscraper 2077があなたをカバーしています。
Cyberscraper 2077の機能を完全にウォークスルーするために、より多くの機能性YouTubeビデオを使用して、Cyberscraper-2077の再設計および改善されたバージョンをご覧ください。
最初のビルド(古いビデオ)YouTubeビデオをご覧ください
Windowsシステム用の別のバージョンを維持できないため、以下に示すDockerコンテナガイドに従ってください。
注:Cyberscraper 2077には、Python 3.10以降が必要です。
このリポジトリをクローンします:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077仮想環境を作成してアクティブ化します。
virtualenv venv
source venv/bin/activate # Optional必要なパッケージをインストールします。
pip install -r requirements.txt劇作家をインストールしてください:
playwright install環境にOpenaiとGeminiキーを設定します。
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Ollamaを使用したい場合:
注:これらのモデルは指示に従うのが得意であるため、OpenaiとGemini APIのみを使用することをお勧めします。オープンソースLLMSを使用している場合は、データ生成/プレゼンテーションの速度がLLMをどの程度実行できるかによって異なるため、優れたシステムがあることを確認してください。また、プロンプトを微調整して、いくつかの追加フィルターを自分で追加する必要がある場合があります。
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Dockerを使用する場合は、次の手順に従ってCyberscraper 2077をセットアップおよび実行します。
システムにDockerがインストールされていることを確認してください。
このリポジトリをクローンします:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Docker画像を作成します:
docker build -t cyberscraper-2077 .コンテナを実行します:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077ブラウザを開き、 http://localhost:8501に移動します。
DockerセットアップでOllamaを使用する場合:
https://ollama.com/downloadの指示に従って、ホストマシンにOllamaをインストールする
ホストマシンでオラマを実行します:
ollama pull llama3.1ホストマシンのIPアドレスを見つける:
ifconfigまたはip addr showipconfigホストネットワークでDockerコンテナを実行し、Ollama URLを設定します。
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077Linuxでは、以下を使用する必要がある場合があります。
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 <your-host-ip>を実際のホストマシンIPアドレスに置き換えます。
retrylidインターフェイスで、使用するOllamaモデルを選択します(例: "ollama:llama3.1")。
注:ファイアウォールにより、オラマのポート11434への接続が許可されていることを確認してください。
retrylittアプリを起動します:
streamlit run main.pyブラウザを開き、 http://localhost:8501に移動します。
必要なデータについて質問するか、質問したいサイトのURLを入力してください。
チャットボットに依頼して、あらゆる形式でデータを抽出してください。エクスポートするデータまたはWebページからすべてを選択します。
Cyberscraper 2077がネットに裂けて涙を流し、「フラットライン」と言うよりも速くデータを抽出してください!
注:マルチページスクレイピング機能は現在ベータ版です。機能的ですが、時折の問題や予期しない動作に遭遇する可能性があります。この機能を改善し続けているので、あなたのフィードバックと忍耐に感謝します。
Cyberscraper 2077はマルチページのスクレイピングをサポートしているため、Webサイトの複数のページからデータを一度に抽出できるようになりました。この機能は、ページに入れられたコンテンツ、検索結果、または複数のページに広がるデータを備えたサイトを削減するのに最適です。
URL構造を簡単に検出できるように、複数のページを削りたい場合は、毎回URL構造を入力することをお勧めします。ほぼすべてのURLタイプを検出します。
基本的な使用法:複数のページをこするには、URLを入力するときに次の形式を使用します。
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
これにより、Webサイトの1〜5ページをこすります。
カスタムページ範囲:カスタムページ範囲を指定できます。
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
これにより、ページ1〜5、7ページ、および9ページから12ページがこすります。
URLパターン:異なるURL構造を持つWebサイトの場合、パターンを指定できます。
https://example.com/search?q=cyberpunk&page={page} 1-5
{page}ページ番号がURL内にある必要がある場所に置き換えます。
自動パターン検出:パターンを指定しない場合、Cyberscraper 2077はURLパターンを自動的に検出しようとします。ただし、最良の結果を得るには、パターンを指定することをお勧めします。
simulate_humanオプションを使用します。robots.txtファイルと利用規約を定期的に確認してください。URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "特定のページをこすりたい場合は、「ページ番号1または2」というクエリを入力してください。すべてのページをこすりたい場合は、「CSVのすべてのページをこすります」などのクエリや、必要な形式などのクエリを提供します。
複数ページのスクレイピング中にエラーが発生した場合:
この機能はベータ版であるため、フィードバックを高く評価します。問題が発生したり、改善のための提案がある場合は、次のようにしてください。
あなたの入力は、将来のリリースのためにこの機能を改良して安定させるのを支援するために重要です。
注:TORネットワークスクレーピング機能により、.Onionサイトにアクセスしてスクレイプできます。この機能には追加のセットアップが必要であり、責任を持って合法的に使用する必要があります。
Cyberscraper 2077は、TORネットワークを介してScraping .Onionサイトをサポートしているため、Dark Webから安全に匿名でデータにアクセスして抽出できるようになりました。この機能は、Tor Hidden Servicesから情報を収集する必要がある研究者、セキュリティアナリスト、および調査員に最適です。
システムにTORをインストールします。
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOS追加のPythonパッケージをインストールします:
pip install PySocks requests[socks]基本的な使用法:.Onion URLを入力するだけで、CyberScraperはTORネットワークを介して自動的に検出してルーティングします。
http://example123abc.onion
安全機能:
次の設定を調整することにより、TORスクレイピング動作をカスタマイズできます。
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Dockerユーザーの場合、これらの追加フラグを追加して、TORサポートを有効にします。
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Tor Scrapingの問題に遭遇した場合:
sudo service tor status )netstat -an | grep 9050 )tor --version )を確保するclient_secret.jsonに名前を変更します。 スクレイピングのニーズに合わせて、 PlaywrightScraper設定をカスタマイズします。一部のWebサイトが問題を示している場合は、Webサイトの動作を確認することをお勧めします。
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:最適な結果を得るには、ターゲットWebサイトと環境に基づいてこれらの設定を調整します。
また、URLの最後に-captchaパラメーターを使用してcaptchaをバイパスすることもできます。ブラウザウィンドウがポップアップし、Captchaを完成させ、端末ウィンドウに戻ります。 Enterを押すと、ボットがタスクを完了します。
Cyberscraper 2077に貢献するために、すべてのサイバーパンク、ネットランナー、コードサムライを歓迎します!
マトリックスのグリッチにぶつかりましたか?このリポジトリに問題を追加して、一緒に修正できるようにしてください。
Q:Cyberscraper 2077は使用する必要がありますか? A:Cyberscraper 2077は、倫理的なWebスクレイピング用に設計されています。常にWebサイトをこすり、robots.txtファイルを尊重する権利があることを確認してください。
Q:これを商業目的で使用できますか? A:はい、MITライセンスの条件の下で。しかし、夜の街では、常に支払う代価があることを忘れないでください。冗談です!
このプロジェクトは、MITライセンスに基づいてライセンスされています。詳細については、ライセンスファイルを参照してください。それを使用して、それを改造し、販売します - あなたがフラットラインになっても私たちを責めないでください。
質問がありますか?サポートが必要ですか?ギグのために私を雇いたいですか?
聞いて、チョンバ!このコードにジャックする前に、あなたはリスクをよりよく理解します:
このソフトウェアは、明示的または黙示的なものであれば、「現状のまま」提供されます。
著者は、このソフトウェアの使用に起因する損害または損失について責任を負いません。
このツールは、教育および研究の目的のみを目的としています。違法な使用は厳密に禁止されています。
このツールを通じて取得したデータの精度、完全性、または信頼性を保証するものではありません。
このソフトウェアを使用することにより、あなたはあなた自身の責任でそうしていることを認めます。
お客様は、このソフトウェアの使用において、適用されるすべての法律および規制を遵守する責任があります。
当社は、通知なしにいつでもソフトウェアを変更または中止する権利を留保します。
サムライ:ネットの暗い未来では、知識は力ですが、両刃の剣でもあります。このツールを賢く使用し、接続が常に強く、ファイアウォールが不可解になりますように。デジタルフロンティアで冷ややかに滞在してください。
Cyberscraper 2077 - 2077年に、誰かが犯罪者になるのはなぜですか?捕まる。
夜の街の通りのそばにあるChromeで建てられました| ©2077 Owen Singh