Recomendado: ASP e Link de acesso Este artigo ilustra duas maneiras de vincular o ASP e o acesso em exemplos de ASP. A seguir, o conteúdo referenciado: %Dim DD, Connstrdd = data.mdbconnstr = & q
As principais etapas do procedimento de coleta são as seguintes:
1. Obtenha o conteúdo da página coletada
2. Extraia todos os dados usados do código de aquisição
1. Obtenha o conteúdo da página coletada
Atualmente, conheço os métodos comumente usados para obter páginas coletadas no ASP:
1. Use o componente ServerxmlHttp para obter dados
O conteúdo a seguir é o código do programa:
| A seguir, o conteúdo citado: Função getbody (weburl) 'Crie um objeto Dim objxmlHttp Definir objxmlHttp = server.createObject (msxml2.ServerxmlHttp) 'Arquivo de solicitação, em forma assíncrona Objxmlhttp.open get, webuurl, false Objxmlhttp.send Enquanto objxmlHttp.readyState <> 4 ObjxmlHttp.waitforSponse 1000 Wend 'Obtenha o resultado GetBody = objxmlHttp.ResponseBody 'Libere o objeto Defina objxmlHttp = nada Função final |
Método de chamada:
GetBody (o endereço URLF do arquivo)
2. Ou componente xmlHttp para obter dados
O conteúdo a seguir é o código do programa:
| A seguir, o conteúdo citado: Função getbody (weburl) 'Crie um objeto Set recuperação = createObject (microsoft.xmlhttp) Com recuperação .Open get, weburl, false ,, .Enviar GetBody = .ResponseBody Termine com 'Libere o objeto Definir recuperação = nada Função final |
Método de chamada:
GetBody (o endereço URLF do arquivo)
Os dados obtidos dessa maneira também precisam ser codificados e convertidos antes que possam ser usados
O conteúdo a seguir é o código do programa:
| A seguir, o conteúdo citado: Função bytestobstr (corpo, cset) objStream dim set objStream = server.createObject (adodb.stream) objstream.type = 1 objstream.mode = 3 objstream.open objstream.write corpo objstream.Position = 0 objstream.type = 2 objstream.charset = cset Bytestobstr = objStream.readText objstream.close definir objstream = nada Função final |
Método de chamada: Bytestobstr (dados a serem convertidos, codificação) 'A codificação é comumente usada como GB2312 e UTF-8
2. Extraia todos os dados usados do código de aquisição
Os métodos que eu dominei são:
1. Use a função média interna do ASP para interceptar os dados necessários
O conteúdo a seguir é o código do programa:
Corpo de função (WSTR, Start, Over)
Start = Newstring (WSTR, Start)
'Defina a marca de partida exclusiva para os dados serem processados
Over = Newstring (WSTR, Over)
'O início correspondente é a única marca final dos dados a serem processados
corpo = médio (WSTR, Start, Over-start)
'Defina o escopo da página exibida
Função final
Método de chamada: corpo (o conteúdo da página coletada, start mark, marca final)
2. Use regularidade para obter os dados necessários
O conteúdo a seguir é o código do programa:
Corpo de função (WSTR, Start, Over)
Definir xiaoqi = novo objeto de configuração regexp'set
xiaoqi.ignorecase = True 'Ignore Caso
xiaoqi.global = true 'definido como pesquisa de texto completo
xiaoqi.pattern = & start &. ? & Over & 'Expressão regular
SET MOCHES = XIAOQI.EXECUTE (WSTR) 'Inicie a execução da configuração
Defina xiaoqi = nada
corpo =
Para cada partida em partidas
Corpo = corpo e correspondência
Próximo
Função final
Método de chamada: corpo (o conteúdo da página coletada, start mark, marca final)
Procedimentos de coleta e idéias detalhadas:
1. Obtenha o endereço de cada página da página da página da lista de paginação do site
Atualmente, a maioria dos sites dinâmicos possui regras para endereços de paginação, como:
Página dinâmica
Página 1: index.asp? Page = 1
Página 2: index.asp? Page = 2
Página 3: index.asp? Page = 3
.....
Página estática
Página 1: página_1.htm
Página 2: página_2.htm
Página 3: página_3.htm
.....
Obtenha o endereço de cada página da página da página de lista de paginação do site, você só precisa substituir os caracteres que alteram o endereço de cada página com variáveis, como: página _ <%= & Page &%>. HTM
2. Obtenha o conteúdo da página do site coletado
3. Extrair o endereço de conexão da URL da página de conteúdo coletado do código da lista de paginação
Também existem regras fixas para conectar páginas de conteúdo na maioria das páginas de paginação, como:
Conecte 1
Conecte 2
Conexão 3
Use o código a seguir para obter uma coleção de conexão de URL
O conteúdo a seguir é o código do programa:
| A seguir, o conteúdo citado: Definir xiaoqi = novo regexp xiaoqi.ignorecase = true xiaoqi.global = true xiaoqi.pattern =. ? SET MOCHES = XIAOQI.EXECUTE (conteúdo da lista de páginas) Defina xiaoqi = nada url = Para cada partida em partidas url = url & match.value Próximo |
4. Obtenha o conteúdo da página de conteúdo coletado e intercepte os dados a serem obtidos na página de conteúdo coletado de acordo com a marca de extração.
Por ser uma página gerada dinamicamente, a maioria das páginas de conteúdo possui as mesmas tags HTML e podemos extrair o conteúdo de cada parte do conteúdo necessário com base nessas tags regulares.
como:
Cada página tem um título da página da web. Você pode obter os valores entre eles usando a função de interceptação média que escrevi acima, ou você pode obtê -los com expressões regulares.
Exemplo: corpo (,)
Compartilhar: Como usar o ASP para personalizar seus próprios métodos de leitura e gravação de arquivos XML Antes disso, escrevi duas postagens sobre o ASP combinando XML, introduzindo as tecnologias de substituir bancos de dados por XML e integrar bancos de dados ao XML, para que os bancos de dados não sejam mais nossa única escolha em alguns casos. Comparado com bancos de dados tradicionais, o XML tem as seguintes vantagens