Análise teórica e dez métodos e contramedidas para evitar que sites sejam capturados Página 1/2

Autor：Eve Cole Data da Última Atualização：2025-03-12 12:32:02

Ao implementar muitos métodos anti-coleta, você precisa considerar se eles afetarão o rastreamento do site pelo mecanismo de pesquisa, então vamos primeiro analisar a diferença entre coletores gerais e coleta do rastreador do mecanismo de pesquisa.

Pontos semelhantes:

a. Ambos precisam capturar diretamente o código-fonte da página da web para funcionar de maneira eficaz.

b. Ambos rastrearão um grande número de conteúdos de sites visitados várias vezes por unidade de tempo;

c. De uma perspectiva macro, ambos os IPs mudarão;

d. Ambos estão muito impacientes para quebrar parte da criptografia (verificação) de páginas da web. Por exemplo, o conteúdo da web é criptografado por meio de arquivos js. você precisa fazer login para acessar o conteúdo.

Diferenças:

O rastreador do mecanismo de pesquisa primeiro ignora todo o script e estilo do código-fonte da página da web, bem como o código da tag html, e então executa uma série de processamento complexo nas partes restantes do texto, como segmentação de palavras, análise gramatical e sintática. O coletor geralmente captura os dados necessários por meio das características das tags HTML. Ao fazer regras de coleta, é necessário preencher a marca inicial e final do conteúdo de destino, para localizar o conteúdo necessário ou utilizar regras regulares específicas para; páginas da web específicas. Quer você use tags de início e fim ou expressões regulares, tags HTML (análise de estrutura de página da web) estarão envolvidas.

A seguir iremos propor alguns métodos anti-cobrança.

1. Limite o número de visitas por unidade de tempo de um endereço IP

Análise: Nenhuma pessoa comum pode visitar o mesmo site 5 vezes em um segundo, a menos que ele seja acessado por um programa, e quem tem essa preferência fica com rastreadores de mecanismos de busca e raspadores irritantes.

Desvantagens: Tamanho único, o que também impedirá que os motores de busca incluam o site.

Sites aplicáveis: sites que não dependem muito de mecanismos de pesquisa

O que o coletor fará: Reduzir o número de acessos por unidade de tempo e reduzir a eficiência da coleta

2. Bloquear IP

Análise: use contadores de segundo plano para registrar endereços IP de visitantes e frequência de acesso, analisar manualmente registros de visitas e bloquear endereços IP suspeitos.

Desvantagens: Parece não haver desvantagens, mas o webmaster está um pouco ocupado.

Sites aplicáveis: todos os sites, e o webmaster pode saber quais são robôs do Google ou Baidu

O que o coletor fará: Combater a guerra de guerrilha Use sempre o proxy IP para coletar dados, mas isso reduzirá a eficiência do coletor e a velocidade da rede (use um proxy).

3. Use js para criptografar conteúdo da web

Nota: nunca encontrei esse método, apenas o vi em outro lugar.

Análise: não há necessidade de analisar, rastreadores e coletores de mecanismos de pesquisa podem matar uns aos outros

Sites aplicáveis: sites que odeiam extremamente mecanismos de pesquisa e colecionadores

O colecionador fará isso: se você for tão incrível e arriscar tudo, ele não virá buscá-lo.

4. Os direitos autorais do site ou algum texto indesejado aleatório estão ocultos na página da web. Esses estilos de texto são escritos no arquivo css.

Análise: Embora não possa impedir a coleta, fará com que o conteúdo coletado esteja repleto de declarações de direitos autorais do seu site ou algum texto indesejado, pois geralmente o coletor não coletará seus arquivos CSS ao mesmo tempo, e esses textos serão exibidos sem estilo.

Sites aplicáveis: todos os sites

O que o colecionador fará: Para textos protegidos por direitos autorais, é fácil manuseá-los e substituí-los. Não há nada que você possa fazer a respeito de mensagens de spam aleatórias, apenas seja diligente.

5. Os usuários devem fazer login para acessar o conteúdo do site

Análise: Os rastreadores de mecanismos de pesquisa não criarão procedimentos de login para todos os tipos de sites. Ouvi dizer que o coletor pode simular o login do usuário e o comportamento de envio de formulário para um determinado design de site.

Sites aplicáveis: sites que odeiam mecanismos de pesquisa e desejam bloquear a maioria dos colecionadores

O que o coletor fará: Criar um módulo que simule o login do usuário e o comportamento de envio do formulário

6. Use linguagem de script para fazer paginação (ocultar paginação)

Análise: Novamente, os rastreadores de mecanismos de pesquisa não analisarão as paginações ocultas de vários sites, o que afeta a inclusão dos mecanismos de pesquisa. No entanto, quando os coletores escrevem regras de coleta, eles precisam analisar o código da página da web de destino. Aqueles que possuem algum conhecimento de script saberão o endereço real do link da paginação.

Sites aplicáveis: sites que não são altamente dependentes de mecanismos de pesquisa. Além disso, a pessoa que coleta você não possui conhecimento de scripts.

O que o coletor fará: Deve ser dito o que o coletor fará. Ele analisará o código da sua página da web de qualquer maneira e, a propósito, analisará o seu script de paginação.