Geração de sites Estratégia de página estática 3: Estratégia anti-coleta

Autor：Eve Cole Data da Última Atualização：2025-04-03 22:48:01

Existem muitas maneiras de impedir a coleta atualmente. Deixe-me introduzir primeiro as estratégias anti-coletivas comuns, suas desvantagens e contramedidas de coleta:

1. Determine o número de visitas a esta página do site por um IP dentro de um determinado período de tempo. Se obviamente exceder a velocidade de navegação normal, o IP será negado.

Desvantagens:

1. Este método é aplicável apenas a páginas dinâmicas, como: asp/jsp/php, etc ... As páginas estáticas não podem determinar o número de vezes que um determinado IP visita a página deste site por um certo período de tempo.

2. Esse método afetará seriamente a inclusão de aranhas dos mecanismos de pesquisa, porque quando a inclusão de aranhas de mecanismo de pesquisa, a velocidade de navegação será relativamente rápida e com vários threads. Este método também rejeita os arquivos das aranhas do mecanismo de pesquisa incluídas no site

Coletando estratégias: apenas desacelerar a velocidade da coleta, ou não

Sugestão: Faça uma biblioteca IP de aranha de mecanismo de pesquisa, que apenas permite que as aranhas do mecanismo de pesquisa naveguem rapidamente o conteúdo no site. Não é fácil coletar a biblioteca IP das aranhas do mecanismo de pesquisa. Uma aranha do mecanismo de pesquisa não possui necessariamente apenas um endereço IP fixo.

Comentário: Este método é mais eficaz para prevenir a coleta, mas afetará a inclusão dos mecanismos de pesquisa.

2. Páginas de conteúdo criptografadas com JavaScript

Desvantagens: esse método é adequado para páginas estáticas, mas afetará seriamente a inclusão dos mecanismos de pesquisa. O conteúdo recebido pelos mecanismos de pesquisa também é criptografado.

Coleta de contramedidas: é recomendável não escolher. Se você precisar escolher, também pode escolher o script JS que descriptografa a senha.

Sugestões: atualmente não há boas sugestões para melhorias

Comentário: Recomenda -se que os webmasters que esperem que os mecanismos de pesquisa tragam tráfego para não usarem esse método.

3. Substitua as marcas específicas na página de conteúdo por "Marcas específicas + texto oculto de direitos autorais"

Desvantagens: esse método tem poucas desvantagens, aumentará apenas o tamanho do arquivo de página, mas é fácil reverter a coleção.

Estratégias de coleta: substitua o texto protegido por direitos autorais coletados pelo conteúdo oculto de texto de direitos autorais ou substitua -o por seus próprios direitos autorais.

Sugestões: atualmente não há boas sugestões para melhorias

Comentário: Sinto que não é muito prático. Mesmo se eu adicionar palavras ocultas aleatórias, é equivalente a adicionar mais.

4. Somente permite que os usuários naveguem após o login

Desvantagem: Este método afetará seriamente a inclusão de aranhas de mecanismo de pesquisa

Coletando contramedidas: alguém publicou artigos de contramedidas. Para detalhes, consulte isso. "Como o programa ASP Thief usa o XMLHTTP para implementar o envio do formulário e os cookies ou o envio da sessão"

Sugestões: atualmente não há boas sugestões para melhorias

Comentário: Recomenda -se que os webmasters que esperem que os mecanismos de pesquisa tragam tráfego para não usarem esse método. No entanto, esse método é eficaz contra os procedimentos gerais de coleta.

5. Use scripts JavaScript e VBScript para paginar

Desvantagens: influenciando os mecanismos de pesquisa para incluí -lo

Colete contramedidas: Analise os scripts JavaScript e VBScript, descubra suas regras de paginação e faça uma página de coleta de paginação correspondente a este site sozinho.

Sugestões: atualmente não há boas sugestões para melhorias