Кодирование веб -страницы переводится как кодировка веб -страницы на английском языке, которая представляет собой библиотеку, которая указывает его конкретный формат кодирования символов на веб -странице.
GBK является стандартом, который совместим с GB2312 после расширения на основе национального стандарта GB2312. Текст, кодирование GBK, представлена двойными байтами, то есть как китайские, так и английские персонажи представлены двойными байтами. Чтобы отличить китайский язык, самый высокий бит устанавливается на 1. GBK содержит все китайские иероглифы, является национальным кодированием и имеет худшую универсальность, чем UTF8, но UTF8 занимает большую базу данных, чем GBK.
UTF-8: Unicode TransformationFormat-8bit, позволяет BOM, но обычно не содержит BOM. Это мультибайтовая кодировка, используемая для решения международных символов. Он использует 8 бит (то есть один байт) для английского языка и 24 (три байта) для кодирования китайцев. UTF-8 содержит персонажи, которые должны использовать все страны мира. Он кодируется на международном уровне и имеет сильную универсальность. Кодированный текст UTF-8 может отображаться в браузерах, которые поддерживают наборы символов UTF8 в различных странах. Если это кодирование UTF8, китайский также может отображаться на английском языке иностранцев, и им не нужно загружать пакет поддержки IE на китайском языке.
Хотя версия UTF-8 имеет хорошую международную совместимость, китайцам требуется 50% места для хранения баз данных, чем версия GBK/BIG5, поэтому он не рекомендуется использовать и предназначен только для пользователей, которые имеют особые требования для международной совместимости. Проще говоря: для веб -сайтов с большим количеством китайцев подходит для использования кодировки GBK для сохранения пространства базы данных. Для веб-сайтов с большим количеством английского языка подходит для использования UTF-8 для сохранения пространства базы данных.
Как преобразовать GBK, GB2312 и т. Д. в UTF8? GBK, GB2312 и т. Д. И UTF8 должны быть закодированы через Unicode, чтобы преобразовать друг друга: GBK, GB2312-UNICODE-UTF8; UTF8-Unicode-GBK, GB2312. Используя сохранение блокнота Windows, вы можете преобразовать между методами кодирования GBK, Unicode, Unicode Big Endian и UTF-8.
Как сделать браузер правильно распознать веб -кодирование? Как правило, на веб-странице должно быть следующее предложение: <meta http-equiv = content-type content = text/html; charset = gb2312>, указывая, что набор символов, кодирование этой веб -страницы, составляет GB2312. (или UTF-8)
Иногда на странице указано кодирование, почему иногда она выглядит искаженной? Это может быть связано с тем, что кодирование объявления страницы не соответствует самому файлу. Это часто вызвано открытием страницы с ошибкой, кодирующим и сохранением ее, или с использованием некоторого программного обеспечения FTP для изменения файла онлайн, такого как CuteFTP, что приводит к преобразованию и неправильно преобразованной конфигурации кодирования программного обеспечения. В настоящее время используйте блокнот Window, чтобы открыть его, и сохраните в качестве соответствующего кодирования для решения проблемы.
При использовании IE в качестве браузера в операционных системах Windows эта проблема часто возникает: при просмотре веб-страниц, кодируемых с UTF-8, браузер не может автоматически распознать кодирование, используемое страницей, даже если на веб-странице объявлено формат кодирования: <Meta HTTP-equiv = Content-Type Content = Text/html; charset = utf-8 />, что вызывает некоторые страницы, содержащие китайские UTF-8, для получения пустых выводов. Если вы используете браузеры Firefox или Sarafi, это не вызовет эту проблему. Это связано с тем, что когда IE анализирует веб -кодирование, предпочтительны теги в HTML, а затем сообщения в заголовке HTTP - это как раз противоположное.
Поскольку UTF-8 представляет человека в 3 байтах, обычные GB2312 или BIG5-два. При выводе страницы, по приведенным выше причинам, когда браузер анализирует и выводит содержание <Title> </title>, если перед </title> есть нечетные символы полной ширины, то есть рассматривает UTF-8 как два байта и половину китайского символа. В настоящее время наполовину китайский символ будет сочетаться с <title> <title> <Title>, что приведет к тому, что IE не сможет прочитать часть <Title>, что делает всю страницу пустой и выводится. В настоящее время, если вы посмотрите на исходный файл, вы обнаружите, что вся страница фактически была выведена, но браузер не отображает контент. Самое простое решение-поместить <meta http-equiv = content-type content = text/html; charset = utf-8 /> до <title> < /title>.