Existem muitas maneiras de impedir a coleta atualmente. Deixe-me introduzir primeiro as estratégias anti-coletivas comuns, suas desvantagens e contramedidas de coleta:
1. Determine o número de visitas a esta página do site por um IP dentro de um determinado período de tempo. Se obviamente exceder a velocidade de navegação normal, o IP será negado.
Desvantagens:
1. Este método é aplicável apenas a páginas dinâmicas, como: asp/jsp/php, etc ... As páginas estáticas não podem determinar o número de vezes que um determinado IP visita a página deste site por um certo período de tempo.
2. Esse método afetará seriamente a inclusão de aranhas dos mecanismos de pesquisa, porque quando a inclusão de aranhas de mecanismo de pesquisa, a velocidade de navegação será relativamente rápida e com vários threads. Este método também rejeita os arquivos das aranhas do mecanismo de pesquisa incluídas no site
Coletando estratégias: apenas desacelerar a velocidade da coleta, ou não
Sugestão: Faça uma biblioteca IP de aranha de mecanismo de pesquisa, que apenas permite que as aranhas do mecanismo de pesquisa naveguem rapidamente o conteúdo no site. Não é fácil coletar a biblioteca IP das aranhas do mecanismo de pesquisa. Uma aranha do mecanismo de pesquisa não possui necessariamente apenas um endereço IP fixo.
Comentário: Este método é mais eficaz para prevenir a coleta, mas afetará a inclusão dos mecanismos de pesquisa.
2. Páginas de conteúdo criptografadas com JavaScript
Desvantagens: esse método é adequado para páginas estáticas, mas afetará seriamente a inclusão dos mecanismos de pesquisa. O conteúdo recebido pelos mecanismos de pesquisa também é criptografado.
Coleta de contramedidas: é recomendável não escolher. Se você precisar escolher, também pode escolher o script JS que descriptografa a senha.
Sugestões: atualmente não há boas sugestões para melhorias
Comentário: Recomenda -se que os webmasters que esperem que os mecanismos de pesquisa tragam tráfego para não usarem esse método.
3. Substitua as marcas específicas na página de conteúdo por "Marcas específicas + texto oculto de direitos autorais"
Desvantagens: esse método tem poucas desvantagens, aumentará apenas o tamanho do arquivo de página, mas é fácil reverter a coleção.
Estratégias de coleta: substitua o texto protegido por direitos autorais coletados pelo conteúdo oculto de texto de direitos autorais ou substitua -o por seus próprios direitos autorais.
Sugestões: atualmente não há boas sugestões para melhorias
Comentário: Sinto que não é muito prático. Mesmo se eu adicionar palavras ocultas aleatórias, é equivalente a adicionar mais.
4. Somente permite que os usuários naveguem após o login
Desvantagem: Este método afetará seriamente a inclusão de aranhas de mecanismo de pesquisa
Coletando contramedidas: alguém publicou artigos de contramedidas. Para detalhes, consulte isso. "Como o programa ASP Thief usa o XMLHTTP para implementar o envio do formulário e os cookies ou o envio da sessão"
Sugestões: atualmente não há boas sugestões para melhorias
Comentário: Recomenda -se que os webmasters que esperem que os mecanismos de pesquisa tragam tráfego para não usarem esse método. No entanto, esse método é eficaz contra os procedimentos gerais de coleta.
5. Use scripts JavaScript e VBScript para paginar
Desvantagens: influenciando os mecanismos de pesquisa para incluí -lo
Colete contramedidas: Analise os scripts JavaScript e VBScript, descubra suas regras de paginação e faça uma página de coleta de paginação correspondente a este site sozinho.
Sugestões: atualmente não há boas sugestões para melhorias