Хотите иметь собственную поисковую систему? Используя в настоящее время популярные методы сбора данных, вы можете получить их немедленно. Вот наученность вам реализовать его шаг за шагом.
1. Понять поиск в Байду
Baidu Search, крупнейшая в мире китайская поисковая система, была указана в NASDAQ в Соединенных Штатах 5 августа 2005 года. В настоящее время это поисковая система с наибольшим количеством использования пользователей в Китае, предоставляя различные поиски, такие как веб -страницы, новости, картинки, музыка, карты и т. Д.
1. Параметры запроса для веб -поиска Baidu
Требуемые параметры
☆ WD-Ключевое слово для запроса (ключевое слово)
☆ PN-Несколько страниц, показывающих результат (PageNumber)
☆ Cl-Search Type (Class), Cl = 3-веб-поиск
Дополнительные параметры
☆ RN-Количество результатов поиска (RecordNumber), диапазон значений составляет от 10 до 100, настройка по умолчанию-RN = 10
☆ IE-Query Кодирование входного текста (входное оборудование), настройка по умолчанию-IE = GB2312, который упрощается китайский
☆ TN-исходный сайт для отправки запроса на поиск
Несколько полезных TNS
TN = Baidulocal означает, что поиск на сайте Baidu, возвращаемые результаты очень чистые и нет рекламных помех. Например, найдите «Happy» на Baidu, чтобы увидеть, освежает ли результат возврата.
TN = Baiducnnic хочет поставить Baidu в рамку? Просто попробуйте этот параметр, он настроен Baidu для CNNIC
☆ SI-поиск в ограниченных доменных именах. Например, если вы хотите искать на веб -сайте Sina, вы можете использовать параметр si = sina.com.cn. Чтобы сделать этот параметр эффективным, вы должны использовать его в сочетании с параметром КТ.
☆ CT-значение этого параметра, как правило, является серией чисел, которая оценивается в код проверки для запроса поиска.
Используйте параметры SI и CT в комбинации, например, в поисках «идеального» в sina.com.cn, доступно: http://www.baidu.com/baidu?ie=utf-8&am...n&cl=3&word=ideal
☆ BS-ключевое слово последнего поиска (Beforesearch), которое, по оценкам, связано с связанными поисками.
2.
Согласно структуре исходного кода, сверху вниз:
Поле поиска
Фиксированный рейтинг горячих зон справа
Результаты поиска
Площадь страна
Связанные поиски
Нижний поле поиска
Площадь авторских прав
Среди них две части «Результаты поиска и зона пейджинга» являются действительными данными, которые нам нужны. Согласно результатам кода, вы можете найти его уникальный идентификатор строки. Просто перехватите контент через этот идентификатор. Для получения подробной информации, посмотрите на следующий код.
2. Функция основной функции-xmlhttp component с использованием asp
Программа сбора данных, широко известная как программа THIF, является основной частью этого компонента XMLHTTP. Немного старомодно использовать XMLHTTP для сбора данных, а также много онлайн-информации. Как правило, код сбора
SETTHTTP = server.createObject ("msxml2.xmlhttp")
Http.open "Get", url, false'open xmlhttp
Http.send () 'Отправить запрос
ifhttp.readystate <> 4then
Выходная функция
эндиф
gethttppage = bytestobstr (http.responsebody, "gb2312") 'возвращает результат (обычно поток байта) и преобразует поток байта в строку
setThttp = Nothing'Release xmlhttp
См. Полный код ниже для подробного приложения
3. Полный код (имя файла: search_bd.asp)
<%
OptionExplice
Dimwd, Pn
WD = запрос ("WD")