HTML: Espace de noms et codage de caractère

Auteur：Eve Cole Date de mise à jour：2025-05-30 19:48:02

Au cours du processus de travail de projet, nous établissons souvent diverses spécifications pour faciliter une meilleure coopération entre les équipes et des projets de mieux; Nous entendons souvent divers protocoles, tels que le protocole Open XMPP utilisé par Google IM Software GTALK. Tant que les autres logiciels IM sont également également conformes au protocole XMPP, il peut être utilisé et communiqué avec GTALK; Il n'y a aucun nombre d'informations sur Internet, et ces informations elles-mêmes existent indépendamment. Comment le connecter en série et le présenter aux utilisateurs nécessite l'utilisation du protocole HTTP.

De même, car les navigateurs ont des noyaux différents et différents rendus de styles par défaut, ils ont besoin d'une règle que chaque navigateur suit pour s'assurer que les styles présentés par le même document Web sur différents navigateurs sont cohérents. Cette règle est la déclaration Doctype.

Étant donné qu'Internet est interopérable, deux ou plusieurs documents Web peuvent impliquer un échange de données. Étant donné que le langage XML permet aux utilisateurs de personnaliser les balises, deux documents échangés peuvent avoir les mêmes balises, ce qui entraîne des conflits des mêmes balises. Par conséquent, un espace de noms est nécessaire pour distinguer les mêmes balises qui peuvent exister dans le document Exchange.

En tant que langue pour la transition HTML vers XML, XHTML ne peut pas implémenter des balises définies par l'utilisateur dans le langage XML, de sorte que les espaces de noms dans les documents XHMTL sont les mêmes:

<html xmlns = http: //www.w3.org/1999/xhtml>

XMLNS est l'abréviation de l'espace de noms XHTML, qui est le soi-disant espace de noms. Comme la déclaration Doctype, XMLNS est également une déclaration. Contrairement à la déclaration Doctype existe toujours dans le document HTML, XMLN n'existe pas dans le document HTML, et les XMLN que nous voyons habituellement apparaissent dans le document XHTML.

Lors de la création d'une page Web, en plus de déclarer Doctype (type de document) au début, s'il s'agit d'un document XHTML, il doit également déclarer l'espace de noms, et la troisième chose à déclarer est le type d'encodage de caractères du document de la page Web:

<meta http-equiv = contenu contenu contenu = text / html; charse = utf-8 '/>

Afin d'être interprété correctement par le navigateur et vérifié par W3C, chaque document XHTML devrait déclarer le codage de caractère utilisé. Plusieurs fois, la plupart des codes brouillés des documents Web sont causés par un codage incorrect de caractères.

UTF-8 est une expression de codage de longueur variable d'Unicode. En tant que codage de personnages universels mondialement universel, il est utilisé dans de plus en plus de documents Web. Les pages Web utilisant le codage des caractères UTF-8 peuvent maximiser l'évitement du code brouillé causé par différents encodages de caractères lorsque des utilisateurs de différentes régions accèdent à la même page Web.

Mais lorsque nous ouvrons la plupart des sites Web nationaux, en particulier les sites Web de portails grands, la déclaration sur le codage des personnages n'est pas UTF-8, mais GB2312:

<meta http-equiv = contenu contenu contenu = text / html; charse = gb2312 '/>

Bien sûr, en plus de GB2312, il existe certains sites Web qui utilisent le codage GBK ou GB18030. Ces trois encodages de caractères appartiennent au jeu de caractères chinois simplifié. C'est-à-dire que si un ordinateur n'a pas un jeu de caractères chinois simplifié installé, lorsqu'il accède à une page Web chinoise avec des caractères codés sous le nom de GB2312, le code brouillé s'affiche.

Étant donné que le code brouillé peut se produire en raison de l'accès des utilisateurs dans différentes régions lors de l'utilisation du codage des caractères GB2312, pourquoi ne pas utiliser UTF-8?

L'une des raisons peut être des raisons historiques, tandis que l'autre raison plus importante devrait être les différentes tailles de documents en raison de différentes méthodes de stockage des deux encodages.

Lors de l'utilisation de l'ensemble de codage de caractères GB2312, un caractère chinois occupe 2 octets, tandis que le nombre d'octets occupés par un caractère chinois dans le codage UTF-8 est souvent de 3 octets, voire plus de 3 octets. Par conséquent, pour le même document chinois, le volume de stockage en utilisant le codage des caractères GB2312 est plus petit que la taille du document stockée dans le codage UTF-8.

Pour les sites Web chinois avec beaucoup de texte et de nombreuses visites, l'utilisation de documents de page Web codés par GB2312 peut économiser beaucoup de trafic en téléchargement et en transmission. En outre, car le groupe d'utilisateurs de sites Web chinois est essentiellement verrouillé sur les utilisateurs chinois, c'est pourquoi de nombreux sites Web utilisent le codé codé par GB2312 au lieu de UTF-8.

Cependant, il n'y a pas beaucoup de sites Web avec beaucoup de texte et de visites en Chine. De plus, le problème du code brouillé peut être apparié, il est donc recommandé d'utiliser le codage UTF-8 lors de la création de pages Web.

Bien sûr, quel que soit le type d'encodage utilisé, la chose la plus importante est que le codage utilisé sur tout le site doit être unifié.

Pour les déclarations d'encodage des caractères en plus de la méthode ci-dessus, vous pouvez également voir une autre méthode de déclaration:

<méta http-equiv = contenu contenu contenu = gb2312 '/>
<méta http-equiv = contenu contenu contenu = zh-cn />

Cette méthode de déclaration s'adresse aux anciennes versions des navigateurs. Cette méthode de déclaration n'est pas recommandée aujourd'hui lorsque les navigateurs ont été généralement mis à jour.