Uma breve discussão sobre o princípio do programa de aquisição da ASP

Autor：Eve Cole Data da Última Atualização：2025-04-12 04:16:02

Recomendado: ASP e Link de acesso
Este artigo ilustra duas maneiras de vincular o ASP e o acesso em exemplos de ASP. A seguir, o conteúdo referenciado: %Dim DD, Connstrdd = data.mdbconnstr = & q

As principais etapas do procedimento de coleta são as seguintes:

1. Obtenha o conteúdo da página coletada

2. Extraia todos os dados usados do código de aquisição

1. Obtenha o conteúdo da página coletada

Atualmente, conheço os métodos comumente usados para obter páginas coletadas no ASP:

1. Use o componente ServerxmlHttp para obter dados

O conteúdo a seguir é o código do programa:

A seguir, o conteúdo citado:

Função getbody (weburl)

'Crie um objeto

Dim objxmlHttp

Definir objxmlHttp = server.createObject (msxml2.ServerxmlHttp)

'Arquivo de solicitação, em forma assíncrona

Objxmlhttp.open get, webuurl, false

Objxmlhttp.send

Enquanto objxmlHttp.readyState <> 4

ObjxmlHttp.waitforSponse 1000

Wend

'Obtenha o resultado

GetBody = objxmlHttp.ResponseBody

'Libere o objeto

Defina objxmlHttp = nada

Função final

Método de chamada:

GetBody (o endereço URLF do arquivo)

2. Ou componente xmlHttp para obter dados

O conteúdo a seguir é o código do programa:

A seguir, o conteúdo citado:

Função getbody (weburl)

'Crie um objeto

Set recuperação = createObject (microsoft.xmlhttp)

Com recuperação

.Open get, weburl, false ,,

.Enviar

GetBody = .ResponseBody

Termine com

'Libere o objeto

Definir recuperação = nada

Função final

Método de chamada:

GetBody (o endereço URLF do arquivo)

Os dados obtidos dessa maneira também precisam ser codificados e convertidos antes que possam ser usados

O conteúdo a seguir é o código do programa:

A seguir, o conteúdo citado:

Função bytestobstr (corpo, cset)

objStream dim

set objStream = server.createObject (adodb.stream)

objstream.type = 1

objstream.mode = 3

objstream.open

objstream.write corpo

objstream.Position = 0

objstream.type = 2

objstream.charset = cset

Bytestobstr = objStream.readText

objstream.close

definir objstream = nada

Função final

Método de chamada: Bytestobstr (dados a serem convertidos, codificação) 'A codificação é comumente usada como GB2312 e UTF-8

2. Extraia todos os dados usados do código de aquisição

Os métodos que eu dominei são:

1. Use a função média interna do ASP para interceptar os dados necessários

O conteúdo a seguir é o código do programa:

Corpo de função (WSTR, Start, Over)

Start = Newstring (WSTR, Start)

'Defina a marca de partida exclusiva para os dados serem processados

Over = Newstring (WSTR, Over)

'O início correspondente é a única marca final dos dados a serem processados

corpo = médio (WSTR, Start, Over-start)

'Defina o escopo da página exibida

Função final

Método de chamada: corpo (o conteúdo da página coletada, start mark, marca final)

2. Use regularidade para obter os dados necessários

O conteúdo a seguir é o código do programa:

Corpo de função (WSTR, Start, Over)

Definir xiaoqi = novo objeto de configuração regexp'set

xiaoqi.ignorecase = True 'Ignore Caso

xiaoqi.global = true 'definido como pesquisa de texto completo

xiaoqi.pattern = & start &. ? & Over & 'Expressão regular

SET MOCHES = XIAOQI.EXECUTE (WSTR) 'Inicie a execução da configuração

Defina xiaoqi = nada

corpo =

Para cada partida em partidas

Corpo = corpo e correspondência

Função final

Método de chamada: corpo (o conteúdo da página coletada, start mark, marca final)

Procedimentos de coleta e idéias detalhadas:

1. Obtenha o endereço de cada página da página da página da lista de paginação do site

Atualmente, a maioria dos sites dinâmicos possui regras para endereços de paginação, como:

Página dinâmica

Página 1: index.asp? Page = 1

Página 2: index.asp? Page = 2

Página 3: index.asp? Page = 3

.....

Página estática

Página 1: página_1.htm

Página 2: página_2.htm

Página 3: página_3.htm

.....

Obtenha o endereço de cada página da página da página de lista de paginação do site, você só precisa substituir os caracteres que alteram o endereço de cada página com variáveis, como: página _ <%= & Page &%>. HTM

2. Obtenha o conteúdo da página do site coletado

3. Extrair o endereço de conexão da URL da página de conteúdo coletado do código da lista de paginação

Também existem regras fixas para conectar páginas de conteúdo na maioria das páginas de paginação, como:

Conecte 1

Conecte 2

Conexão 3

Use o código a seguir para obter uma coleção de conexão de URL

O conteúdo a seguir é o código do programa:

A seguir, o conteúdo citado:

Definir xiaoqi = novo regexp

xiaoqi.ignorecase = true

xiaoqi.global = true

xiaoqi.pattern =. ?

SET MOCHES = XIAOQI.EXECUTE (conteúdo da lista de páginas)

Defina xiaoqi = nada

url =

Para cada partida em partidas

url = url & match.value

4. Obtenha o conteúdo da página de conteúdo coletado e intercepte os dados a serem obtidos na página de conteúdo coletado de acordo com a marca de extração.

Por ser uma página gerada dinamicamente, a maioria das páginas de conteúdo possui as mesmas tags HTML e podemos extrair o conteúdo de cada parte do conteúdo necessário com base nessas tags regulares.

como:

Cada página tem um título da página da web. Você pode obter os valores entre eles usando a função de interceptação média que escrevi acima, ou você pode obtê -los com expressões regulares.

Exemplo: corpo (,)

Compartilhar: Como usar o ASP para personalizar seus próprios métodos de leitura e gravação de arquivos XML
Antes disso, escrevi duas postagens sobre o ASP combinando XML, introduzindo as tecnologias de substituir bancos de dados por XML e integrar bancos de dados ao XML, para que os bancos de dados não sejam mais nossa única escolha em alguns casos. Comparado com bancos de dados tradicionais, o XML tem as seguintes vantagens