Comment choisir de comprendre et d'utiliser correctement le codage Web GBK et UTF-8

Auteur：Eve Cole Date de mise à jour：2025-05-01 15:32:01

Le codage de la page Web est traduit par codage de page Web en anglais, qui est une bibliothèque qui spécifie son format de codage de caractères spécifique dans une page Web.

GBK est une norme compatible avec GB2312 après l'expansion basée sur la norme nationale GB2312. Le codage de texte de GBK est représenté par des doubles octets, c'est-à-dire que les caractères chinois et anglais sont représentés par des doubles octets. Afin de distinguer le chinois, le bit le plus élevé est défini sur 1. GBK contient tous les caractères chinois, est codé national et a une polyvalence pire que UTF8, mais UTF8 occupe une base de données plus large que GBK.

UTF-8: Unicode TransformationFormat-8bit, permet Bom, mais ne contient généralement pas de BOM. Il s'agit d'un codage multi-octets utilisé pour résoudre des personnages internationaux. Il utilise 8 bits (c'est-à-dire un octet) pour l'anglais et 24 (trois octets) pour le chinois à coder. UTF-8 contient des personnages que tous les pays du monde doivent utiliser. Il est codé à l'étranger et a une forte polyvalence. Le texte codé UTF-8 peut être affiché sur les navigateurs qui prennent en charge les jeux de caractères UTF8 dans divers pays. S'il s'agit d'un codage UTF8, le chinois peut également être affiché sur l'anglais des étrangers IE, et ils n'ont pas besoin de télécharger le package de support en chinois IE.

Bien que la version UTF-8 ait une bonne compatibilité internationale, le chinois nécessite 50% de l'espace de stockage de la base de données que la version GBK / BIG5, il n'est donc pas recommandé d'utiliser et n'est que pour les utilisateurs qui ont des exigences particulières pour la compatibilité internationale. Autrement dit: pour les sites Web avec plus de chinois, il est adapté d'utiliser le codage GBK pour enregistrer l'espace de base de données. Pour les sites Web avec plus d'anglais, il convient d'utiliser UTF-8 pour enregistrer l'espace de base de données.

Comment convertir GBK, GB2312, etc. en UTF8? GBK, GB2312, etc. et UTF8 doivent être codés via Unicode pour se convertir: GBK, GB2312-Unicode-UTF8; UTF8-Unicode-GBK, GB2312. En utilisant la sauvegarde de Windows.

Comment faire en sorte que le navigateur reconnaît correctement l'encodage Web? Généralement, il doit y avoir la phrase suivante dans une page Web: <META HTTP-Equiv = Content-Type Content = Text / HTML; Charset = GB2312>, indiquant que le codage du jeu de caractères de cette page Web est GB2312. (ou UTF-8)

Parfois, la page a spécifié le codage, pourquoi semble-t-il parfois brouillé? Cela peut être dû au fait que le codage de la déclaration de page est incompatible avec le fichier lui-même. Il est souvent causé par l'ouverture de la page avec une erreur le codant et l'enregistrer, ou l'utilisation d'un logiciel FTP pour modifier le fichier en ligne, tel que mignonftp, ce qui entraîne la converti de la configuration du logiciel et de manière incorrecte. À l'heure actuelle, utilisez le bloc-notes de Windows pour l'ouvrir et enregistrez comme codage correspondant pour résoudre le problème.

Lorsque vous utilisez IE comme navigateur sur les systèmes d'exploitation Windows, ce problème se produit souvent: lors de la navigation sur les pages Web encodées avec UTF-8, le navigateur ne peut pas reconnaître automatiquement le codage utilisé par la page, même si la page Web a déclaré le format de codage: <meta http-equiv = contenu-type contenu = text / html; Charset = UTF-8 />, qui provoque certaines pages contenant un codage UTF-8 chinois pour produire une sortie vierge. Si vous utilisez des navigateurs Firefox ou Sarafi, cela ne causera pas ce problème. En effet, lorsque le codage Web IE Parses, les balises en HTML sont préférés, puis les messages de l'en-tête HTTP sont tout le contraire.

Étant donné que l'UTF-8 représente un homme en 3 octets, les GB 2312 ou Big5 ordinaires sont deux. Lors de la sortie de la page, pour les raisons ci-dessus, lorsque le navigateur analyse et sortira le contenu de <Title> </Title>, s'il y a des caractères impair en pleine largeur devant le </TITAL>, IE traitera UTF-8 comme deux octets et un demi-caractère chinois. À l'heure actuelle, le personnage de moitié chinois sera combiné avec le <ititle> <itle> <itle>, ce qui ne peut pas être en mesure de lire la partie <itle>, ce qui rend la page entière et la sortie. Pour le moment, si vous regardez le fichier source, vous constaterez que la page entière a été réellement sortie, mais que le navigateur n'affiche pas le contenu. La solution la plus simple consiste à mettre <meta http-equiv = contenu contenu de type = text / html; charset = utf-8 /> avant <Title> </Title>.