RIP dados da rede, sem deixar vestígios. Bem -vindo ao futuro da raspagem na web.
O CyberScraper 2077 não é apenas mais uma ferramenta de raspagem na web - é um vislumbre do futuro da extração de dados. Nascido das ruas iluminadas por neon de um mundo cyberpunk, este raspador movido a IA usa modelos Openai, Gemini e Localllm para cortar as defesas da Web, extraindo os dados necessários com precisão e estilo incomparáveis.
Seja você um analista de dados do Corpo, um netrunner smart de rua ou apenas alguém que deseja extrair informações do reino digital, o cybercraper 2077 o cobriu.
Confira nossa versão reprovada e aprimorada do CyberScraper-2077 com mais vídeo da funcionalidade do YouTube para obter um passo a passo completo dos recursos do CyberScraper 2077.
Confira o vídeo do YouTube da primeira construção (vídeo antigo)
Siga o guia do contêiner do Docker, pois não conseguirei manter outra versão para os sistemas Windows.
Nota: CybersCraper 2077 Requer Python 3.10 ou superior.
Clone este repositório:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Crie e ativar um ambiente virtual:
virtualenv venv
source venv/bin/activate # OptionalInstale os pacotes necessários:
pip install -r requirements.txtInstale o dramaturgo:
playwright installDefina a chave OpenAi & Gemini em seu ambiente:
Linux/Mac:
export OPENAI_API_KEY= " your-api-key-here "
export GOOGLE_API_KEY= " your-api-key-here "Se você quiser usar o ollama:
NOTA: Eu recomendo o uso da API OpenAi e Gemini, pois esses modelos são realmente bons em seguir as instruções. Se você estiver usando LLMs de código aberto, verifique se tem um bom sistema, pois a velocidade da geração/apresentação de dados depende de quão bem seu sistema pode executar o LLM. Você também pode precisar ajustar o prompt e adicionar alguns filtros adicionais.
1. Setup Ollama using ` pip install ollama `
2. Download Ollama from the official website: https://ollama.com/download
3. Now type: ollama pull llama3.1 or whatever LLM you want to use.
4. Now follow the rest of the steps below.Se você preferir usar o Docker, siga estas etapas para configurar e executar o CyberScraper 2077:
Certifique -se de instalar o Docker no seu sistema.
Clone este repositório:
git clone https://github.com/itsOwen/CyberScraper-2077.git
cd CyberScraper-2077Construa a imagem do Docker:
docker build -t cyberscraper-2077 .Execute o contêiner:
docker run -p 8501:8501 cyberscraper-2077docker run -p 8501:8501 -e OPENAI_API_KEY= " your-actual-api-key " cyberscraper-2077docker run -p 8501:8501 -e GOOGLE_API_KEY= " your-actual-api-key " cyberscraper-2077 Abra o navegador e navegue para http://localhost:8501 .
Se você quiser usar o Ollama com a configuração do Docker:
Instale o Ollama em sua máquina host seguindo as instruções em https://ollama.com/download
Execute o Ollama em sua máquina host:
ollama pull llama3.1Encontre o endereço IP da sua máquina host:
ifconfig ou ip addr showipconfigExecute o contêiner do docker com a rede host e defina o URL do ollama:
docker run -e OLLAMA_BASE_URL=http://host.docker.internal:11434 -p 8501:8501 cyberscraper-2077No Linux, você pode precisar usar isso abaixo:
docker run -e OLLAMA_BASE_URL=http:// < your-host-ip > :11434 -p 8501:8501 cyberscraper-2077 Substitua <your-host-ip> -IP> pelo seu endereço IP da máquina host real.
Na interface do streamlit, selecione o modelo Ollama que você deseja usar (por exemplo, "Ollama: LLAMA3.1").
NOTA: Verifique se o seu firewall permite que as conexões portem 11434 para o Ollama.
Inicie o aplicativo StreamLit:
streamlit run main.py Abra o navegador e navegue para http://localhost:8501 .
Digite o URL do site que deseja raspar ou fazer uma pergunta sobre os dados necessários.
Peça ao chatbot para extrair os dados em qualquer formato. Selecione todos os dados que você deseja exportar ou até tudo da página da web.
Observe como ciberescriaper 2077 lágrimas pela rede, extraindo seus dados mais rapidamente do que você pode dizer "Flatline"!
Nota : O recurso de raspagem de várias páginas está atualmente na versão beta. Embora funcionais, você pode encontrar problemas ocasionais ou comportamento inesperado. Agradecemos seus comentários e paciência à medida que continuamos a melhorar esse recurso.
O CyberScraper 2077 agora suporta raspagem de várias páginas, permitindo extrair dados de várias páginas de um site de uma só vez. Esse recurso é perfeito para raspar o conteúdo paginado, os resultados da pesquisa ou qualquer site com dados espalhados por várias páginas.
Eu sugiro que você insira a estrutura da URL sempre se desejar raspar várias páginas para que ela possa detectar a estrutura do URL facilmente. Ele detecta quase todos os tipos de URL.
Uso básico : para raspar várias páginas, use o seguinte formato ao entrar no URL:
https://example.com/page 1-5
https://example.com/p/ 1-6
https://example.com/xample/something-something-1279?p=1 1-3
Isso raspará as páginas 1 a 5 do site.
Intervalos de páginas personalizados : você pode especificar intervalos de páginas personalizados:
https://example.com/p/ 1-5,7,9-12
https://example.com/xample/something-something-1279?p=1 1,7,8,9
Isso raspará as páginas 1 a 5, página 7 e páginas 9 a 12.
Padrões de URL : para sites com diferentes estruturas de URL, você pode especificar um padrão:
https://example.com/search?q=cyberpunk&page={page} 1-5
Substitua {page} por onde o número da página deve estar no URL.
Detecção automática de padrões : se você não especificar um padrão, o cybercraper 2077 tentará detectar o padrão de URL automaticamente. No entanto, para obter melhores resultados, a especificação do padrão é recomendada.
simulate_human para obter um comportamento de raspagem mais natural em sites com medidas anti-BOT.robots.txt do site e os termos de serviço para garantir a conformidade.URL Example : " https://news.ycombinator.com/?p=1 1-3 or 1,2,3,4 "Se você deseja raspar uma página específica, basta inserir a consulta "Remite a página número 1 ou 2". Se você deseja raspar todas as páginas, basta fazer uma consulta como "Raspe todas as páginas no CSV" ou qualquer formato que desejar.
Se você encontrar erros durante a raspagem de várias páginas:
Como esse recurso está na versão beta, valorizamos muito seus comentários. Se você encontrar algum problema ou ter sugestões de melhoria, por favor:
Sua opinião é crucial para nos ajudar a refinar e estabilizar esse recurso para lançamentos futuros.
NOTA : O recurso de raspagem de rede do Tor permite acessar e raspar sites .onion. Esse recurso requer configuração adicional e deve ser usado com responsabilidade e legalmente.
O CyberScraper 2077 agora suporta sites de raspagem .NONION através da rede Tor, permitindo acessar e extrair dados da Web Dark com segurança e anonimamente. Esse recurso é perfeito para pesquisadores, analistas de segurança e investigadores que precisam coletar informações dos serviços ocultos da TOR.
Instale o TOR no seu sistema:
# Ubuntu/Debian
sudo apt install tor
# macOS (using Homebrew)
brew install tor
# Start the Tor service
sudo service tor start # on Linux
brew services start tor # on macOSInstale pacotes python adicionais:
pip install PySocks requests[socks]Uso básico : basta entrar em um URL .onion, e o cybercraper detectará e direcionará automaticamente a rede Tor:
http://example123abc.onion
Recursos de segurança :
Você pode personalizar o comportamento de raspagem do Tor ajustando as seguintes configurações:
tor_config = TorConfig (
socks_port = 9050 , # Default Tor SOCKS port
circuit_timeout = 10 , # Timeout for circuit creation
auto_renew_circuit = True , # Automatically renew Tor circuit
verify_connection = True # Verify Tor connection before scraping
)Para usuários do Docker, adicione estes sinalizadores adicionais para ativar o suporte para torneiras:
docker run -p 8501:8501
--network= " host "
-e OPENAI_API_KEY= " your-api-key "
cyberscraper-2077Se você encontrar problemas com a raspagem:
sudo service tor status )netstat -an | grep 9050 )tor --version )client_secret.json . Personalize as configurações PlaywrightScraper para atender às suas necessidades de raspagem. Se alguns sites estiverem lhe dando problemas, convém verificar o comportamento do site:
use_stealth: bool = True,
simulate_human: bool = False,
use_custom_headers: bool = True,
hide_webdriver: bool = True,
bypass_cloudflare: bool = True:Ajuste essas configurações com base no site de destino e no ambiente para obter melhores resultados.
Você também pode ignorar o Captcha usando o parâmetro -captcha no final do URL. A janela do navegador aparecerá, completará o Captcha e voltará para a janela do terminal. Pressione Enter e o Bot concluirão sua tarefa.
Congratulamo -nos com todos os cyberpunks, NetRunners e Code Samurais para contribuir com o CyberScraper 2077!
Encontrou uma falha na matriz? Deixe -me saber adicionando o problema a este repositório para que possamos corrigi -lo.
P: O cybercraper 2077 é legal para usar? R: O CyberScraper 2077 foi projetado para raspagem ética na web. Sempre certifique -se de ter o direito de raspar um site e respeitar o arquivo robots.txt deles.
P: Posso usar isso para fins comerciais? A: Sim, nos termos da licença do MIT. Mas lembre -se, em Night City, sempre há um preço a pagar. Estou brincando!
Este projeto está licenciado sob a licença do MIT - consulte o arquivo de licença para obter detalhes. Use, modele, vendê -lo - apenas não nos culpe se você acabar plana.
Tem perguntas? Precisa de apoio? Quer me contratar para um show?
Ouça, Choombas! Antes de entrar nesse código, você entende melhor os riscos:
Este software é fornecido "como está", sem garantia de qualquer tipo, expresso ou implícito.
Os autores não são responsáveis por quaisquer danos ou perdas resultantes do uso deste software.
Esta ferramenta é destinada apenas a fins educacionais e de pesquisa. Qualquer uso ilegal é estritamente proibido.
Não garantimos a precisão, integridade ou confiabilidade de quaisquer dados obtidos através desta ferramenta.
Ao usar este software, você reconhece que está fazendo isso por seu próprio risco.
Você é responsável por cumprir todas as leis e regulamentos aplicáveis no uso deste software.
Reservamo -nos o direito de modificar ou interromper o software a qualquer momento, sem aviso prévio.
Lembre-se, Samurai: No futuro sombrio da rede, o conhecimento é poder, mas também é uma faca de dois gumes. Use essa ferramenta com sabedoria e que sua conexão seja sempre forte e seus firewalls impenetráveis. Fique gelado lá fora na fronteira digital.
CyberScraper 2077 - Porque em 2077, o que torna alguém um criminoso? Sendo pego.
Construído com ❤️ e Chrome By the Streets of Night City | © 2077 Owen Singh