Guia da página estática da geração de sites 4: impedir a coleta, mas não a estratégia do mecanismo de pesquisa

Autor：Eve Cole Data da Última Atualização：2025-04-19 02:32:01

A partir do princípio da coleta que mencionei anteriormente, você pode ver que a maioria dos programas de coleta depende das regras de análise para coleta, como analisar as regras de nome do arquivo de paginação e analisar as regras do código da página.

1. Prevenção da coleta de nomes de arquivos de paginação

A maioria dos colecionadores confia na análise das regras de nome do arquivo de paginação para executar a coleção em lote e várias páginas. Se outros não conseguirem encontrar as regras de nome do arquivo para o seu arquivo de paginação, outros não poderão coletar várias páginas do seu site em lotes.

Método de implementação:

Eu acho que criptografar nomes de arquivos de paginação com MD5 é uma maneira melhor. Falando nisso, algumas pessoas dirão que, se você criptografar nomes de arquivos de paginação com o MD5, outras também poderão simular suas regras de criptografia para obter seus nomes de arquivos de paginação de acordo com esta regra.

O que eu quero ressaltar é que, quando criptografarmos o nome do arquivo de paginação, não apenas criptografa a parte que altera o nome do arquivo

Se eu representar o número da página da página, não devemos criptografá -lo assim: Page_Name = Md5 (i, 16) & ". Htm"

É melhor acompanhar um ou mais caracteres no número da página a ser criptografado, como: Page_Name = Md5 (i & "Qualquer uma ou várias letras", 16) & "Htm"

Como o MD5 não pode ser descriptografado, as letras da página que outros vêem são o resultado da criptografia MD5, para que o Adder não possa saber quais letras você segue depois que eu, a menos que ele use **** MD5 violento, mas não é realista.

2. Prevenção da coleta de regras de código da página

Se nossa página de conteúdo não tiver regras de código, outros não poderão extrair as partes de conteúdo de que precisam do seu código. Portanto, a etapa que precisamos para impedir a coleta é fazer o código livre de regras.

Método de implementação:

Randomizar os marcadores que a outra parte precisa extrair

1. Personalize vários modelos da Web. As tags HTML importantes em cada modelo da web são diferentes. Ao apresentar o conteúdo da página, selecione aleatoriamente modelos da Web. Algumas páginas são layout com CSS+Div, e algumas páginas são layout com a tabela. Este método é um pouco problemático. Para uma página de conteúdo, você precisa fazer várias outras páginas de modelo. No entanto, a anti-coleta é uma coisa muito tediosa. Fazer mais modelos pode desempenhar um papel na prevenção da coleção, que vale a pena para muitas pessoas.

2. Se o método acima for muito problemático, randomize as tags HTML importantes na página da web.

Quanto mais modelos da web você fizer, mais aleatório será o código HTML. Quanto mais problemas serão quando a outra parte analisar o código do conteúdo. Quando a outra parte escrever uma estratégia de coleção para o seu site, será mais difícil. Neste momento, a maioria das pessoas se retira porque essa pessoa é preguiçosa e coleta dados dos sites de outras pessoas ~~~ Vamos falar sobre isso novamente. Atualmente, a maioria das pessoas usa programas de coleta desenvolvidos por outras pessoas para coletar dados. Afinal, existem algumas pessoas que desenvolvem programas de coleta para coletar dados por si mesmos.

Existem algumas idéias simples para você:

1. Use scripts do cliente para exibir conteúdo importante para os coletores de dados, mas não para pesquisar mecanismos.

2. Dividir uma página de dados em n páginas também é uma maneira de aumentar a dificuldade da coleta.