encoding_rs Download - encoding_rs Téléchargement du code source

encoding_rs

Données du site Web

1.0.0

Télécharger

Encoding_rs

Encoding_rs une implémentation des (parties non javascriptales de) la norme d'encodage écrite en rouille.

La norme d'encodage définit l'ensemble de codages de caractères compatibles Web, ce qui signifie que cette caisse peut être utilisée pour décoder le contenu Web. Encoding_RS est utilisé dans Gecko en commençant par Firefox 56. En raison du chevauchement notable entre les encodages hérités sur le Web et les encodages hérités utilisés sur Windows, cette caisse peut également être utilisée pour des situations non liées au WEB; Voir ci-dessous pour les liens vers des caisses adjacentes.

De plus, le module mem fournit diverses opérations pour traiter le texte en Ram (par opposition aux données qui viennent ou qui vont à une frontière IO). Le module mem est un module au lieu d'une caisse distincte en raison de l'efficacité des détails de la mise en œuvre interne.

Fonctionnalité

En raison du cas d'utilisation de Gecko, Encoding_RS prend en charge le décodage et le codage de l'UTF-16 en plus de soutenir le cas d'utilisation de rouille habituel de décodage et de codage à partir de l'UTF-8. De plus, l'API a été conçue pour être conviviale FFI pour accueillir le côté C ++ de Gecko.

Plus précisément, Encoding_RS fait ce qui suit:

Décode un flux d'octets dans un codage de caractère défini en codage en codage dans une Ram UTF-16 native-ende alignée alignée valide (unités de u16 / char16_t ).
Code pour un flux d'UTF-16 invalides alignés potentiellement invalides (unités de u16 / char16_t ) dans une séquence d'octets dans un codage de caractère défini standard codant comme si les substances solitaires avaient été remplacées par le caractère de remplacement avant d'effectuer l'encodage. (L'UTF-16 de Gecko est potentiellement invalide.)
Décode un flux d'octets dans un codage de caractère défini en codage en codage dans UTF-8 valide.
Code pour un flux d'UTF-8 valide dans une séquence d'octets dans un codage de caractères défini en codage. (UTF-8 de Rust est garantie-valide.)
Est-ce que ce qui précède dans le streaming (entrée et sortie se divise sur plusieurs tampons) et sans streaming (entrée entière dans un seul tampon et sortie entière dans un seul tampon).
Évite de copier (emprunte) lorsque cela est possible dans les cas non streaming lors du décodage ou de l'encodage à partir de l'UTF-8.
Résolve les étiquettes textuelles qui identifient les codages de caractères dans le texte du protocole dans des objets de type type représentant ces encodages conceptuellement.
Carte le codage des objets en codage sur le type sur des chaînes adaptées au retour de document.characterSet .
Valide UTF-8 (dans les scénarios de jeu d'instructions communs un peu plus rapidement pour les charges de travail Web que la bibliothèque standard; espérons-le, un jour sera opposé) et ASCII.

De plus, encoding_rs::mem fait ce qui suit:

Vérifie si un tampon d'octet ne contient que ASCII.
Vérifie si un tampon UTF-16 potentiellement invalide ne contient que le latin de base (ASCII).
Vérifie si un UTF-8, UTF-8 potentiellement valide ou potentiellement-invalide ou un tampon UTF-16 potentiellement-invalide ne contient que des points de code Latin1 (ci-dessous U + 0100).
Vérifie si un UTF-8, un UTF-8 utf-8 potentiellement valide ou un tampon UTF-16 potentiellement-invalide ou un point de code ou une unité de code UTF-16 peut déclencher un comportement de droite à gauche (adapté pour vérifier si l'algorithme bidirectionnel unicode peut être optimisé).
Versions combinées des deux vérifications ci-dessus.
Convertit UTF-8 valide, potentiellement invalide UTF-8 et Latin1 à UTF-16.
Convertit UTF-16 et Latin1 potentiellement invalides en UTF-8.
Convertit UTF-8 et UTF-16 en Latin1 (si dans la plage).
Trouve la première unité de code invalide dans un tampon d'UTF-16 potentiellement invalide.
Fait un tampon mutable d'UTF-16 potentiel-invalide contienne un UTF-16 valide.
Copie ASCII d'un tampon à un autre jusqu'au premier octet non ASCII.
Convertit ASCII en UTF-16 jusqu'au premier octet non ASCII.
Convertit UTF-16 en ASCII jusqu'à la première unité de code latin non basique.

Intégration avec `std::io`

Notamment, la liste des fonctionnalités ci-dessus n'inclut pas la capacité d'envelopper un std::io::Read , le décoder dans UTF-8 et la présentation du résultat via std::io::Read . La caisse encoding_rs_io fournit cette capacité.

environnement `no_std`

La caisse fonctionne dans un environnement no_std . Par défaut, la fonction alloc , qui suppose qu'un allocateur est présent est activé. Pour un environnement sans allocateur, les fonctionnalités par défaut (c.-à-d. alloc ) peuvent être désactivées. Cela rend la partie de l'API qui renvoie Vec / String / Cow indisponible.

E-mail de décodage

Pour le décodage des encodages de caractères qui se produisent par e-mail, utilisez la caisse charset au lieu d'utiliser celle-ci directement. (Il enveloppe cette caisse et ajoute un décodage UTF-7.)

Mappages d'identificateurs de la page de code Windows

Pour les mappages vers et depuis les identifiants de la page de code Windows, utilisez la caisse codepage .

Encodages DOS

Cette caisse ne prend pas en charge les encodages DOS un seul octets qui ne sont pas requis par la plate-forme Web, mais la caisse oem_cp .

Préparer du texte pour les encodeurs

Normaliser le texte dans le formulaire de normalisation Unicode C avant le codage du texte dans un encodage hérité minimise les caractères incalculables. Le texte peut être normalisé dans le formulaire de normalisation Unicode C à l'aide de la caisse icu_normalizer .

L'exception est Windows-1258, qui, après la normalisation, le formulaire de normalisation Unicode C nécessite des marques de tonalité pour être décomposées afin de minimiser les caractères non apparables. Les marques de tonalité vietnamiennes peuvent être décomposées à l'aide de la caisse detone .

Licence

TL; DR: (Apache-2.0 OR MIT) AND BSD-3-Clause pour le code et la combinaison de données.

Veuillez consulter le fichier nommé Copyright.

Le code non test qui n'est pas généré à partir des données WhatWG dans cette caisse est sous Apache-2.0 ou MIT. Le code de test est sous CC0.

Cette caisse contient du code / des données générées à partir de données fournies par whatwg. Le whatwg en amont a modifié sa licence pour des parties des spécifications incorporées dans le code source de CC0 à la clause BSD-3 entre la version initiale de cette caisse et la version actuelle de cette caisse. Les légendes de l'octroi de licences sur source ont été mises à jour pour les parties du code généré qui ont changé depuis le changement de licence en amont.

Documentation

La documentation API générée est disponible en ligne.

Il y a un article long sur la conception et les internes de la caisse.

Liaisons C et C ++

Une couche FFI pour Encoding_RS est disponible en caisse séparée. La caisse est livrée avec un wrapper C ++ de démonstration à l'aide de la bibliothèque standard C ++ et des types GSL.

Les liaisons du module mem sont dans la caisse Encoding_C_Mem.

Pour le contexte Gecko, il y a un wrapper C ++ utilisant les types MFBT / XPCOM.

Il y a un article sur les emballages C ++.

Exemples de programmes

Rouiller
C
C ++

Fonctionnalités facultatives

Il existe actuellement ces fonctionnalités de fret en option:

`simd-accel`

Permet l'accélération SIMD à l'aide de la fonction de bibliothèque standard portable_simd dépendant de la nuit.

Il s'agit d'une fonction d'opt-in, car l'activation de cette fonctionnalité se retire des garanties de Rust des futurs compilateurs compilant l'ancien code (aka. "Stability Story").

Actuellement, cela n'a pas été testé comme une amélioration, à l'exception de ces cibles et l'activation de la fonctionnalité simd-accel devrait briser la construction sur d'autres cibles:

x86_64
i686
AARCH64
Thumbv7neon

Si vous utilisez la rouille nocturne, vous utilisez des cibles dont le premier composant est l'un des éléments ci-dessus, et vous êtes prêt à réviser votre configuration lors de la mise à jour de la rouille , vous devez activer cette fonctionnalité. Sinon, veuillez ne pas activer cette fonctionnalité.

Utilisé par Firefox.

`serde`

Permet la prise en charge des champs de structure de sérialisation et désérialisants &'static Encoding à l'aide de Serde.

Non utilisé par Firefox.

`fast-legacy-encode`

Une option fourre-tout pour activer les options d'encodage hérité les plus rapides. N'affecte pas la vitesse du décodage ou la vitesse du code UTF-8.

À l'heure actuelle, cette option équivaut à permettre les options suivantes:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

Ajoute 176 Ko à la taille binaire.

Non utilisé par Firefox.

`fast-hangul-encode`

Modifie le codage des syllabes Hangul précomposées en EUC-KR à partir de la recherche binaire sur les tables optimisées à décodage à la recherche par index, ce qui rend le code de texte en simple coréen environ 4 fois plus rapidement que sans cette option.

Ajoute 20 Ko à la taille binaire.