그물에서 데이터를 찢어 흔적을 남기지 않습니다. 웹 스크래핑의 미래에 오신 것을 환영합니다.
Cyberscraper 2077은 또 다른 웹 스크래핑 도구가 아닙니다. 데이터 추출의 미래를 엿볼 수 있습니다. 사이버 펑크 세계의 네온 조명 거리에서 태어난이 AI 기반 스크레이퍼는 OpenAi, Gemini 및 LocAllm 모델을 사용하여 웹 방어를 통해 슬라이스하여 비교할 수없는 정밀도와 스타일로 필요한 데이터를 추출합니다.
Corpo Data Analyst, Street-Smart Netrunner 또는 Digital Realm에서 정보를 가져 오려는 사람이든 Cyberscraper 2077이 귀하를 다루었습니다.
Cyberscraper 2077의 기능의 전체 연습을 위해 더 많은 기능성 YouTube 비디오를 통해 Cyberscraper-2077의 재 설계 및 개선 된 버전을 확인하십시오.
첫 번째 빌드 (오래된 비디오) YouTube 비디오를 확인하십시오
Windows Systems 용 다른 버전을 유지할 수 없으므로 아래에 주어진 Docker 컨테이너 안내서를 따르십시오.
참고 : Cyberscraper 2077에는 Python 3.10 이상이 필요합니다.
이 저장소를 복제하십시오.
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077가상 환경 생성 및 활성화 :
virtualenv venv
source venv/bin/activate # Optional필요한 패키지 설치 :
pip install -r requirements.txt극작가 설치 :
playwright install환경에서 OpenAi & Gemini 키를 설정하십시오.
Linux/Mac :
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Ollama를 사용하려면 :
참고 : OpenAI 및 Gemini API를 사용하는 것이 좋습니다.이 모델은 다음과 같은 지침에 능숙합니다. 오픈 소스 LLM을 사용하는 경우 데이터 생성/프레젠테이션의 속도가 시스템을 LLM을 얼마나 잘 실행할 수 있는지에 달려 있으므로 좋은 시스템이 있는지 확인하십시오. 프롬프트를 미세 조정하고 추가 필터를 직접 추가해야 할 수도 있습니다.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Docker를 사용하려면 다음 단계를 따라 Cyberscraper 2077을 설정하고 실행하십시오.
시스템에 Docker가 설치되어 있는지 확인하십시오.
이 저장소를 복제하십시오.
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Docker 이미지 구축 :
docker build -t cyberscraper-2077 .컨테이너 실행 :
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 브라우저를 열고 http://localhost:8501 로 이동하십시오.
Docker 설정과 함께 Ollama를 사용하려면 :
https://ollama.com/download의 지침에 따라 호스트 머신에 Ollama를 설치하십시오.
호스트 머신에서 Ollama를 실행하십시오.
ollama pull llama3.1호스트 머신의 IP 주소를 찾으십시오.
ifconfig 또는 ip addr showipconfig호스트 네트워크로 Docker 컨테이너를 실행하고 Ollama URL을 설정하십시오.
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077Linux에서는 아래에서 다음을 사용해야 할 수도 있습니다.
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 실제 호스트 머신 IP 주소로 <your-host-ip> 를 교체하십시오.
Streamlit 인터페이스에서 사용하려는 Ollama 모델을 선택하십시오 (예 : "Ollama : llama3.1").
참고 : 방화벽이 Ollama의 포트 11434에 연결할 수 있는지 확인하십시오.
유선형 앱을 발사하십시오.
streamlit run main.py 브라우저를 열고 http://localhost:8501 로 이동하십시오.
긁으려고하려는 사이트의 URL을 입력하거나 필요한 데이터에 대해 질문하십시오.
챗봇에 데이터를 어떤 형식 으로든 추출하도록 요청하십시오. 내보낼 데이터 또는 웹 페이지에서 모든 데이터를 선택하십시오.
Cyberscraper 2077 인터넷을 통해 눈물을 흘리면서 "Flatline"이라고 할 수있는 것보다 더 빨리 데이터를 추출하십시오!
참고 : 다중 페이지 스크래핑 기능은 현재 베타에 있습니다. 기능적이지만 가끔 문제 나 예기치 않은 행동에 직면 할 수 있습니다. 이 기능을 계속 개선하면서 귀하의 의견과 인내심에 감사드립니다.
Cyberscraper 2077은 이제 다중 페이지 스크래핑을 지원하므로 한 번에 웹 사이트의 여러 페이지에서 데이터를 추출 할 수 있습니다. 이 기능은 Paginated 컨텐츠, 검색 결과 또는 여러 페이지에 데이터가 퍼지는 사이트를 폐기하는 데 적합합니다.
여러 페이지를 긁어 내고 URL 구조를 쉽게 감지 할 수 있도록 매번 URL 구조를 입력하는 것이 좋습니다. 거의 모든 URL 유형을 감지합니다.
기본 사용 : 여러 페이지를 긁려면 URL을 입력 할 때 다음 형식을 사용하십시오.
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
이것은 웹 사이트의 1-5 페이지를 긁어냅니다.
사용자 정의 페이지 범위 : 사용자 정의 페이지 범위를 지정할 수 있습니다.
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
이것은 페이지 1 ~ 5, 7 페이지 및 9-12 페이지를 긁어냅니다.
URL 패턴 : URL 구조가 다른 웹 사이트의 경우 패턴을 지정할 수 있습니다.
https://example.com/search?q=cyberpunk&page={page} 1-5
{page} 페이지 번호가 URL에있는 위치로 바꾸십시오.
자동 패턴 감지 : 패턴을 지정하지 않으면 Cyberscraper 2077은 URL 패턴을 자동으로 감지하려고 시도합니다. 그러나 최상의 결과를 얻으려면 패턴을 지정하는 것이 좋습니다.
simulate_human 옵션을 사용하십시오.robots.txt 파일 및 서비스 약관을 정기적으로 확인하십시오.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "특정 페이지를 긁으려면 "페이지 번호 1 또는 2 페이지를 긁어 내십시오"쿼리를 입력하십시오. 모든 페이지를 폐기하려면 "CSV에서 모든 페이지를 스크레이프"하거나 원하는 형식과 같은 쿼리를 제공하십시오.
다중 페이지 스크래핑 중에 오류가 발생하면 :
이 기능은 베타에 있으므로 귀하의 의견을 높이 평가합니다. 문제가 발생하거나 개선을위한 제안이 있으면 :
귀하의 의견은 향후 릴리스를 위해이 기능을 개선하고 안정화시키는 데 중요합니다.
참고 : TOR 네트워크 스크래핑 기능을 사용하면 .Onion 사이트에 액세스하고 긁을 수 있습니다. 이 기능에는 추가 설정이 필요하며 책임감 있고 합법적으로 사용해야합니다.
Cyberscraper 2077은 이제 TOR 네트워크를 통해 스크래핑 .Onion 사이트를 지원하므로 Dark Web에서 안전하고 익명으로 데이터에 액세스하고 추출 할 수 있습니다. 이 기능은 Tor Hidden Services의 정보를 수집 해야하는 연구원, 보안 분석가 및 조사자에게 적합합니다.
시스템에 Tor를 설치하십시오.
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOS추가 파이썬 패키지 설치 :
pip install PySocks requests[socks]기본 사용 : 간단히 .onion URL을 입력하면 Cyberscraper가 Tor 네트워크를 통해 자동으로 감지 및 라우팅됩니다.
http://example123abc.onion
안전 기능 :
다음 설정을 조정하여 Tor Scraping 동작을 사용자 정의 할 수 있습니다.
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Docker 사용자의 경우이 추가 플래그를 추가하여 TOR 지원을 가능하게합니다.
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Tor Scraping에 문제가 발생하면 :
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json 으로 이름을 바꿉니다. 스크래핑 요구에 맞게 PlaywrightScraper 설정을 사용자 정의하십시오. 일부 웹 사이트에서 문제가 발생하면 웹 사이트의 동작을 확인할 수 있습니다.
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:최적의 결과를 위해 대상 웹 사이트 및 환경에 따라 이러한 설정을 조정하십시오.
URL 끝에 -captcha 매개 변수를 사용하여 보안 문자를 우회 할 수도 있습니다. 브라우저 창이 팝업되어 보안 문자를 작성하고 터미널 창으로 돌아갑니다. Enter를 누르면 봇이 작업을 완료합니다.
우리는 사이버 스크래퍼 2077에 기여하기 위해 모든 사이버 펑크, 네트 루너 및 코드 Samurais를 환영합니다!
매트릭스에 결함이 생겼습니까? 이 레포지어에 문제를 추가하여 함께 고칠 수 있도록 알려주십시오.
Q : Cyberscraper 2077은 사용해야합니까? A : Cyberscraper 2077은 윤리적 웹 스크래핑을 위해 설계되었습니다. 항상 웹 사이트를 긁어 내고 Robots.txt 파일을 존중할 권리가 있는지 확인하십시오.
Q : 상업적 목적으로 이것을 사용할 수 있습니까? A : 그렇습니다. MIT 라이센스의 조건에 따라. 그러나 나이트 시티에는 항상 지불 할 가격이 있다는 것을 기억하십시오. 농담!
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다. 자세한 내용은 라이센스 파일을 참조하십시오. 그것을 사용, 모드, 판매 - 당신이 평평하게되면 우리를 비난하지 마십시오.
질문이 있습니까? 지원이 필요하십니까? 공연을 위해 나를 고용하고 싶습니까?
듣고, 옴바! 이 코드에 들어가기 전에 위험을 더 잘 이해합니다.
이 소프트웨어는 어떤 종류의 보증없이 "그대로"제공됩니다.
저자는이 소프트웨어의 사용으로 인한 손해 또는 손실에 대해 책임을지지 않습니다.
이 도구는 교육 및 연구 목적으로 만 사용됩니다. 불법적 인 사용은 엄격하게 금지됩니다.
우리는이 도구를 통해 얻은 데이터의 정확성, 완전성 또는 신뢰성을 보장하지 않습니다.
이 소프트웨어를 사용함으로써 귀하는 자신의 위험에 따라 그렇게하고 있음을 인정합니다.
귀하는이 소프트웨어를 사용하여 모든 해당 법률 및 규정을 준수 할 책임이 있습니다.
당사는 언제든지 통지없이 소프트웨어를 수정하거나 중단 할 권리를 보유합니다.
Samurai : 그물의 어두운 미래에서 지식은 힘이지만 양날의 칼이기도합니다. 이 도구를 현명하게 사용하면 연결이 항상 강하고 방화벽이 뚫 으면서도 사용하십시오. 디지털 프론티어에서 서리가 내리십시오.
Cyberscraper 2077 - 2077 년에 누군가를 범죄자로 만드는 이유는 무엇입니까? 잡히는 것.
야간 시티의 거리 옆에 ❤️과 크롬으로 지어진 | © 2077 Owen Singh