La codificación de la página web se traduce como codificación de la página web en inglés, que es una biblioteca que especifica su formato de codificación de caracteres específico en una página web.
GBK es un estándar que es compatible con GB2312 después de la expansión basada en el estándar nacional GB2312. La codificación de texto de GBK está representada por bytes dobles, es decir, los caracteres chinos e ingleses están representados por bytes dobles. Para distinguir el chino, el bit más alto se establece en 1. GBK contiene todos los caracteres chinos, está codificado por National y tiene peor versatilidad que UTF8, pero UTF8 ocupa una base de datos más grande que GBK.
UTF-8: Unicode TransformationFormat-8bit, permite BOM, pero generalmente no contiene BOM. Es una codificación de múltiples bytes utilizada para resolver caracteres internacionales. Utiliza 8 bits (es decir, un byte) para inglés y 24 (tres bytes) para que los chinos codifiquen. UTF-8 contiene personajes que todos los países del mundo necesitan usar. Está codificado internacionalmente y tiene una fuerte versatilidad. El texto codificado UTF-8 se puede mostrar en los navegadores que admiten conjuntos de caracteres UTF8 en varios países. Si es una codificación UTF8, los chinos también se pueden mostrar en el inglés de extranjeros, es decir, y no necesitan descargar el paquete de soporte de idiomas chino IE.
Aunque la versión UTF-8 tiene una buena compatibilidad internacional, los chinos requieren el 50% del espacio de almacenamiento de la base de datos que la versión GBK/Big5, por lo que no se recomienda usar y solo es para usuarios que tienen requisitos especiales para la compatibilidad internacional. En pocas palabras: para sitios web con más chino, es adecuado usar la codificación GBK para guardar espacio en la base de datos. Para sitios web con más inglés, es adecuado usar UTF-8 para guardar espacio en la base de datos.
¿Cómo convertir GBK, GB2312, etc. a UTF8? GBK, GB2312, etc. y UTF8 deben codificarse a través de Unicode para convertirse entre sí: GBK, GB2312-UNICODE-UTF8; UTF8-UNICODE-GBK, GB2312. Usando los métodos de codificación de Windows Notepad AS, puede convertir entre GBK, Unicode, Unicode Big Endian y Métodos de codificación UTF-8.
¿Cómo hacer que el navegador reconozca correctamente la codificación web? En general, debe haber la siguiente oración en una página web: <meta http-oquiv = content-type content = text/html; Charset = GB2312>, lo que indica que la codificación del conjunto de caracteres de esta página web es GB2312. (o UTF-8)
A veces la página ha especificado la codificación, ¿por qué a veces parece confuso? Esto puede deberse a que la codificación de la declaración de la página es inconsistente con el archivo en sí. A menudo se trata de abrir la página con un error que codifica y guardarla, o el uso de algún software FTP para modificar el archivo en línea, como CuteFTP, lo que hace que la configuración de codificación del software se convierta y se convierta incorrectamente. En este momento, use el bloc de notas de Window para abrirlo y guarde como la codificación correspondiente para resolver el problema.
Al usar IE como navegador en los sistemas operativos de Windows, este problema a menudo ocurre: al navegar por páginas web codificadas con UTF-8, el navegador no puede reconocer automáticamente la codificación utilizada por la página, incluso si la página web ha declarado el formato de codificación: <meta http-outiv = contenido-type contenido = text/html; Charset = UTF-8 />, que hace que algunas páginas que contengan la codificación de UTF-8 chino producen una salida en blanco. Si está utilizando navegadores Firefox o Sarafi, esto no causará este problema. Esto se debe a que cuando IE analiza la codificación web, se prefieren las etiquetas en HTML, y luego los mensajes en el encabezado HTTP son todo lo contrario.
Dado que UTF-8 representa a un hombre en 3 bytes, el GB2312 o Big5 ordinario son dos. Al emitir la página, debido a las razones anteriores, cuando el navegador analiza y emite el contenido de <title> </title>, si hay personajes impares de ancho completo frente al </title>, es decir, tratará UTF-8 como dos bytes y medio carácter chino. En este momento, el personaje medio chino se combinará con el <title> <title> <title>, lo que hace que IE no pueda leer la parte <title>, haciendo que toda la página se vacíe y salga. En este momento, si observa el archivo fuente, encontrará que toda la página realmente ha sido emitida, pero el navegador no muestra el contenido. La solución más fácil es poner <meta http-oquiv = content-type content = text/html; charset = utf-8 /> antes de <title> </title>.