Ao implementar muitos métodos anti-coleta, você precisa considerar se eles afetarão o rastreamento do site pelo mecanismo de pesquisa, então vamos primeiro analisar a diferença entre coletores gerais e coleta do rastreador do mecanismo de pesquisa.
Pontos semelhantes:
a. Ambos precisam capturar diretamente o código-fonte da página da web para funcionar de maneira eficaz.
b. Ambos rastrearão um grande número de conteúdos de sites visitados várias vezes por unidade de tempo;
c. De uma perspectiva macro, ambos os IPs mudarão;
d. Ambos estão muito impacientes para quebrar parte da criptografia (verificação) de páginas da web. Por exemplo, o conteúdo da web é criptografado por meio de arquivos js. você precisa fazer login para acessar o conteúdo.
Diferenças:
O rastreador do mecanismo de pesquisa primeiro ignora todo o script e estilo do código-fonte da página da web, bem como o código da tag html, e então executa uma série de processamento complexo nas partes restantes do texto, como segmentação de palavras, análise gramatical e sintática. O coletor geralmente captura os dados necessários por meio das características das tags HTML. Ao fazer regras de coleta, é necessário preencher a marca inicial e final do conteúdo de destino, para localizar o conteúdo necessário ou utilizar regras regulares específicas para; páginas da web específicas. Quer você use tags de início e fim ou expressões regulares, tags HTML (análise de estrutura de página da web) estarão envolvidas.
A seguir iremos propor alguns métodos anti-cobrança.
1. Limite o número de visitas por unidade de tempo de um endereço IP
Análise: Nenhuma pessoa comum pode visitar o mesmo site 5 vezes em um segundo, a menos que ele seja acessado por um programa, e quem tem essa preferência fica com rastreadores de mecanismos de busca e raspadores irritantes.
Desvantagens: Tamanho único, o que também impedirá que os motores de busca incluam o site.
Sites aplicáveis: sites que não dependem muito de mecanismos de pesquisa
O que o coletor fará: Reduzir o número de acessos por unidade de tempo e reduzir a eficiência da coleta
2. Bloquear IP
Análise: use contadores de segundo plano para registrar endereços IP de visitantes e frequência de acesso, analisar manualmente registros de visitas e bloquear endereços IP suspeitos.
Desvantagens: Parece não haver desvantagens, mas o webmaster está um pouco ocupado.
Sites aplicáveis: todos os sites, e o webmaster pode saber quais são robôs do Google ou Baidu
O que o coletor fará: Combater a guerra de guerrilha Use sempre o proxy IP para coletar dados, mas isso reduzirá a eficiência do coletor e a velocidade da rede (use um proxy).
3. Use js para criptografar conteúdo da web
Nota: nunca encontrei esse método, apenas o vi em outro lugar.
Análise: não há necessidade de analisar, rastreadores e coletores de mecanismos de pesquisa podem matar uns aos outros
Sites aplicáveis: sites que odeiam extremamente mecanismos de pesquisa e colecionadores
O colecionador fará isso: se você for tão incrível e arriscar tudo, ele não virá buscá-lo.
4. Os direitos autorais do site ou algum texto indesejado aleatório estão ocultos na página da web. Esses estilos de texto são escritos no arquivo css.
Análise: Embora não possa impedir a coleta, fará com que o conteúdo coletado esteja repleto de declarações de direitos autorais do seu site ou algum texto indesejado, pois geralmente o coletor não coletará seus arquivos CSS ao mesmo tempo, e esses textos serão exibidos sem estilo.
Sites aplicáveis: todos os sites
O que o colecionador fará: Para textos protegidos por direitos autorais, é fácil manuseá-los e substituí-los. Não há nada que você possa fazer a respeito de mensagens de spam aleatórias, apenas seja diligente.
5. Os usuários devem fazer login para acessar o conteúdo do site
Análise: Os rastreadores de mecanismos de pesquisa não criarão procedimentos de login para todos os tipos de sites. Ouvi dizer que o coletor pode simular o login do usuário e o comportamento de envio de formulário para um determinado design de site.
Sites aplicáveis: sites que odeiam mecanismos de pesquisa e desejam bloquear a maioria dos colecionadores
O que o coletor fará: Criar um módulo que simule o login do usuário e o comportamento de envio do formulário
6. Use linguagem de script para fazer paginação (ocultar paginação)
Análise: Novamente, os rastreadores de mecanismos de pesquisa não analisarão as paginações ocultas de vários sites, o que afeta a inclusão dos mecanismos de pesquisa. No entanto, quando os coletores escrevem regras de coleta, eles precisam analisar o código da página da web de destino. Aqueles que possuem algum conhecimento de script saberão o endereço real do link da paginação.
Sites aplicáveis: sites que não são altamente dependentes de mecanismos de pesquisa. Além disso, a pessoa que coleta você não possui conhecimento de scripts.
O que o coletor fará: Deve ser dito o que o coletor fará. Ele analisará o código da sua página da web de qualquer maneira e, a propósito, analisará o seu script de paginação.