Quer ter seu próprio mecanismo de pesquisa? Usando os métodos de aquisição de dados atualmente populares, você pode tê -los imediatamente. Aqui está um ensino a implementá -lo passo a passo.
1. Entenda a pesquisa do Baidu
A Baidu Search, o maior mecanismo de busca chinesa do mundo, foi listada no Nasdaq nos Estados Unidos em 5 de agosto de 2005. Atualmente, é o mecanismo de pesquisa com a maior taxa de uso de usuários na China, fornecendo várias pesquisas como páginas da web, notícias, fotos, músicas, mapas, etc.
1. Parâmetros de consulta para pesquisa na web do Baidu
Parâmetros necessários
☆ WD-Keyword for Query (palavra-chave)
☆ PN-Número de páginas que mostram o resultado (Pagenumber)
☆ CL-Pesquisa (classe), Cl = 3 é pesquisa na web
Parâmetros opcionais
☆ RN-O número de resultados de pesquisa (RecordNumber), o intervalo de valor está entre 10-100, a configuração padrão é RN = 10
☆ IE-Query A codificação do texto de entrada (InputingEncoding), a configuração padrão é ie = gb2312, que é simplificada chinesa
☆ TN-O site de origem para enviar uma solicitação de pesquisa
Vários TNs úteis
TN = Baidulocal significa que as pesquisas no site do Baidu, os resultados retornados são muito limpos e não há interferência no anúncio. Por exemplo, procure "feliz" no Baidu para ver se o resultado de retorno é refrescante.
TN = Baiducnnic quer colocar o Baidu na estrutura? Basta tentar este parâmetro, é personalizado pelo Baidu para CNNIC
☆ Si-Search em nomes de domínio limitado. Por exemplo, se você deseja pesquisar no site da SINA, poderá usar o parâmetro si = sina.com.cn. Para tornar este parâmetro eficaz, você deve usá -lo em conjunto com o parâmetro CT.
☆ CT-O valor desse parâmetro geralmente é uma sequência de números, que é estimada como o código de verificação para a solicitação de pesquisa.
Use parâmetros Si e CT em combinação, por exemplo, pesquisando "ideal" em sina.com.cn, disponível: http://www.baidu.com/baidu?ie=utf-8&am...n&cl=3&word=ideal
☆ BS-A palavra-chave da última pesquisa (Beforesearch), estimada como está relacionada a pesquisas relacionadas.
2. Estrutura da página de resultados de pesquisa do Baidu
De acordo com a estrutura do código-fonte, o de cima para baixo é:
Caixa de pesquisa
Classificação fixa de áreas quentes à direita
Resultados da pesquisa
Área de paginação
Pesquisas relacionadas
Caixa de pesquisa inferior
Área de direitos autorais
Entre eles, as duas partes "resultados de pesquisa e área de paginação" são os dados válidos de que precisamos. De acordo com os resultados do código, você pode encontrar seu identificador de string exclusivo. Basta interceptar o conteúdo através desse identificador. Para detalhes, consulte o código a seguir.
2. Função do núcleo-componente xmlHttp usando ASP
O programa de coleta de dados, comumente conhecido como Programa de Thief, é a parte central deste componente XMLHTTP. É um pouco antiquado usar o XMLHTTP para coletar dados, e também há muitas informações on-line. Geralmente, o código de coleta é
setthttp = server.createObject ("msxml2.xmlHttp")
Http.open "get", url, false'open xmlhttp
Http.send () 'Envie uma solicitação
ifhttp.readyState <> 4Then
saída de saída
endif
gethttppage = bytestobstr (http.Responsebody, "gb2312") 'retorna o resultado (geralmente um fluxo de bytes) e converte o fluxo de bytes em uma string
setThttp = Nothing'Release XMLHTTP
Veja o código completo abaixo para aplicação detalhada
3. Código completo (nome do arquivo: searchi_bd.asp)
<%
optionExplicit
Dimwd, pn
wd = request ("wd")