Принцип перспективной поисковой системы Разработка моделирования SE

Автор：Eve Cole Время обновления：2009-06-01 01:50:33

В последнее время я был занят изучением оптимизации веб-сайтов, и внезапно заинтересовался и кратко изучил принципы SE. Прочитав эту статью, они определенно получат большую пользу для SEO-специалистов. Только лучше понимая механизм и принципы поисковых систем. лучшие рейтинги.

Технические проблемы, которые приходится решать поисковым системам, обычно делятся на программы-пауки + классификацию и индексирование + словарь + факторы алгоритма сортировки + индексацию и оптимизацию базы данных + структуру базы данных.

1. Паук. В настоящее время кажется, что пауки могут быть реализованы на C или PHP. Большинство пауков Baidu созданы на языке C. C также может поддерживать несколько интерфейсов подключения к базе данных, а эффективность работы C выше, чем у PHP, и C также может лучше управлять нижним уровнем. Хотя C настолько хорош, я все равно хочу использовать PHP. Время нужно экономить больше, и мы больше не сможем изучать C. Если вам понадобится использовать C в будущем, если вам нужна высокая эффективность, используйте C снова. База данных может оставаться неизменной, а MYSQL можно подключить к C. PHP имеет свои преимущества и недостатки. Если вы паук, это не должно стать большой проблемой. Самая большая проблема в том, что это может быть очень медленно. При сканировании веб-страниц могут возникнуть проблемы с порядком сканирования, как зафиксировать, если сканирование не удалось или истекло время, и когда обновить сканирование в следующий раз. База данных поисковой системы сначала новая, в ней нет URL-адресов, и необходимо добавить большое количество URL-адресов. Здесь вы можете использовать оператор цикла for для автоматического цикла по английским буквам. Разумеется, сайт не только на английском языке, но еще – и цифры, которые можно вводить только вручную. Если вы все равно зациклите его, то, по оценкам, многие из них потерпят неудачу. Захваченный код необходимо проанализировать, чтобы определить, является ли тип кодировки utf-8 или gb2312. Моя поисковая система хочет захватывать только упрощенный китайский язык. Если время выборки истечет, оно будет записано и будет получено снова примерно через десять дней. Если время ожидания истечет три раза подряд, оно будет удалено из базы данных.

2. Создание индекса — очень сложная проблема. Baidu и Google могут использовать собственные фермы серверов для создания распределенных серверов. У меня не так много серверов. Поэтому я хотел попробовать другой подход. Создавайте статические страницы. Раньше я не знал, что ввод относительно редкого слова в Baidu и Google займет около 0,2 секунды, тогда как обычные слова занимают всего 0,1 секунды. Более того, время запроса, необходимое для повторного ввода слова во второй раз, намного меньше. Вероятно, это влияние индекса. Если индекс помещен в память, скорость чтения будет очень хорошей. У меня только один сервер, и даже если бы я поместил на него индекс только из 50 000 общих терминов запроса, это, вероятно, было бы немного утомительно. Размер страницы должен быть не менее 20 КБ, а 50 000 страниц — это 20 КБ*50=1 ГБ. Это только первая страница из 50 000 слов. Если пользователь захочет перелистывать страницы для запроса, памяти точно не хватит. Если в память помещается только первая страница и пользователь перелистывает страницы для запроса, скорость не улучшится. Итак, я собираюсь стать полностью статичным. Смоделируйте запрос из 50 000 слов, а затем сгенерируйте статическую страницу. Первая страница всех слов помещается в память, а последующие страницы размещаются на жестком диске. Если бы страницу можно было поместить в память, эта проблема была бы решена.

3. Словарный запас. Существуют тысячи китайских иероглифов, и существует не менее 3000 широко используемых китайских иероглифов. По оценкам, из него состоит 20 000 общеупотребительных слов. Как добавить этот тезаурус? В каком формате его следует хранить? CSV-файл, базу данных или текстовый файл. Раньше я думал о том, чтобы найти файл тезауруса Kingsoft PowerWord и попытаться скопировать его напрямую. Этот метод пока не увенчался успехом.

4. Все алгоритмы, влияющие на сортировку, следует разместить в таблице. Кроме того, существуют фиксированные алгоритмы, которые являются факторами самого веб-сайта, и переменные алгоритмы, которые являются факторами, которые изменяются в зависимости от слов, вводимых пользователем, или в зависимости от времени, сезона и т. д. Фиксированный алгоритм помещается в таблицу, и для каждого сайта подсчитывается общий балл. Часть алгоритма изменений была сгенерирована ранее, а часть рассчитывается после ввода данных пользователем.

5. В настоящее время не существует хорошего решения для индексации базы данных. Индексов выражений не должно быть слишком много, так как слишком большое их количество повлияет на скорость.

6. Структура базы данных. Это очень важно. Предполагается, что структура базы данных должна быть окончательно доработана до появления внешнего интерфейса веб-сайта. Также необходимо оставить интерфейс для будущих обновлений, таких как добавление факторов алгоритма или изменение полей с целью оптимизации операторов запроса и т. д. Предварительная структура такая. 1-3 таблицы хранят информацию о сайте. Первое поле — это автоматически увеличиваемый первичный ключ, второе поле — это адрес домашней страницы веб-сайта, а также по порядку время регистрации доменного имени веб-сайта, время сбора, время последнего снимка, общее количество включенных страниц, количество байтов на домашняя страница, классификация доменных имен (com/cn/org/net/gov/edu), общее количество обратных ссылок, классификация веб-сайта (может быть от 1 до 10, портал можно расширить до 30) и т. д.

Статья воспроизведена с сайта: www.jianfeiyiqi.com Пожалуйста, укажите источник со ссылкой.