encoding_rs Download - encoding_rs Quellcode herunterladen

encoding_rs

Website-Daten

1.0.0

Herunterladen

Coding_rs

coding_rs Eine Implementierung der (nicht-JavaScript-Teile) des in Rost geschriebenen Codierungsstandards.

Der Codierungsstandard definiert den Webkompatible-Satz von Zeichencodierungen, was bedeutet, dass diese Kiste zum Dekodieren von Webinhalten verwendet werden kann. Coding_rs wird in Gecko verwendet, beginnend mit Firefox 56. Aufgrund der bemerkenswerten Überlappung zwischen den Legacy Codings im Web und den an Fenstern verwendeten Legacy-Codierungen kann diese Kiste auch für nicht-gewebbezogene Situationen von Nutzen sein. Links zu benachbarten Kisten finden Sie unten.

Darüber hinaus bietet das mem Modul verschiedene Operationen für den Umgang mit In-RAM-Text (im Gegensatz zu Daten, die von oder zu einer IO-Grenze stammen oder an eine IO-Grenze gehen). Das mem -Modul ist aufgrund interner Implementierungsdetails ein Modul anstelle einer separaten Kiste.

Funktionalität

Aufgrund des Gecko-Anwendungsfalls unterstützt Coding_rs die Dekodierung und Codierung von UTF-16 und unterstützt den üblichen Rost-Anwendungsfall der Dekodierung und Codierung von UTF-8. Zusätzlich wurde die API als ffi-freundlich ausgelegt, um die C ++-Seite von Gecko aufzunehmen.

Insbesondere macht Coding_rs Folgendes::

Decodiert einen Strom von Bytes in einem codierenden Standard-Charakter, der in gültige ausgestrahlte native netzende utf-16 (Einheiten von u16 / char16_t ) codiert.
Codiert einen Strom von potenziell invaliden ausgerichteten Native-Endian-In-RAM-UTF-16 (Einheiten von u16 / char16_t ) in eine Abfolge von Bytes in einem kodierenden Standard-Zeichen-Codierung, als ob die einzelnen Ersatzteile durch das Ersatzcharakter vor der Ausführung ersetzt worden wären. (Geckos UTF-16 ist potenziell ungültig.)
Dekodiert einen Strom von Bytes in einem codierenden Standard-Charakter, der in gültige UTF-8 codiert.
Codiert einen Stream von gültigem UTF-8 in eine Sequenz von Bytes in einer codierenden Standard-Zeichencodierung. (Rusts UTF-8 ist garantiert-valid.)
Ist das obige Streaming (Eingangs- und Ausgangsausgang über mehrere Puffer aufgeteilt) und nicht-Streaming (Ganzeingang in einem einzelnen Puffer und Gesamtausgang in einem einzelnen Puffer) Varianten.
Vermeiden Sie das Kopieren (Kredite), wenn möglich in den nicht streaming Fällen, wenn sie zu Dekodieren oder Codierung von UTF-8 kodiert.
Löst Textbezeichnungen, die Zeichencodierungen im Protokolltext identifizieren, in Typ-sicher-sichere Objekte, die diejenigen Codierungen konzeptionell darstellen.
Ordnet die typ-sicheren Codierungsobjekte auf Zeichenfolgen zu, die für die Rückkehr von document.characterSet geeignet sind.
Validiert UTF-8 (in gemeinsamen Anweisungsszenarien für Web-Workloads etwas schneller als die Standardbibliothek; hoffentlich werden Sie eines Tages vorgelöst) und ASCII.

Zusätzlich macht encoding_rs::mem Folgendes::

Überprüft, ob ein Bytepuffer nur ASCII enthält.
Überprüft, ob ein potenziell invalidaler UTF-16-Puffer nur Basic Latin (ASCII) enthält.
Überprüft, ob ein gültiger UTF-8, potenziell-invalid-UTF-8 oder potenziell-invalid-UTF-16-Puffer nur Latin1-Codepunkte (unter U+0100) enthält.
Überprüft, ob ein gültiger UTF-8, potenziell invalidierter UTF-8 oder potenziell invalides UTF-16-Puffer oder ein Codepunkt oder ein UTF-16-Code-Einheit das Verhalten von Recht nach links auslösen kann (geeignet für die Überprüfung, ob der Unicode-bidirektionale Algorithmus optimiert werden kann).
Kombinierte Versionen der oben genannten zwei Schecks.
Konvertiert gültige UTF-8, potenziell invalidierte UTF-8 und Latin1 in UTF-16.
Konvertiert potenziell-invalid UTF-16 und Latin1 in UTF-8.
Konvertiert UTF-8 und UTF-16 in Latin1 (falls im Bereich).
Findet die erste ungültige Codeeinheit in einem Puffer von potenziell invalidiertem UTF-16.
Erstellt ein veränderlicher Puffer von potenziellen Invalid-UTF-16 gültiger UTF-16.
Kopiert ASCII von einem Puffer zum ersten bis zum ersten Nicht-ASCII-Byte.
Konvertiert ASCII in UTF-16 bis zum ersten Nicht-ASCII-Byte.
Konvertiert UTF-16 in ASCII bis zur ersten nicht grundlegenden lateinischen Codeeinheit.

Integration mit `std::io`

Insbesondere enthält die obige Funktionsliste nicht die Fähigkeit, ein std::io::Read zu wickeln, in UTF-8 zu dekodieren und das Ergebnis über std::io::Read zu präsentieren. Die encoding_rs_io -Kiste bietet diese Fähigkeit.

`no_std` -Umgebung

Die Kiste funktioniert in einer no_std -Umgebung. Standardmäßig ist die alloc -Funktion, die davon ausgeht, dass ein Allokator vorhanden ist. Für eine No-Allocator-Umgebung können die Standardfunktionen (dh alloc ) ausgeschaltet werden. Dies macht den Teil der API, der Vec / String / Cow nicht verfügbar zurückgibt.

E -Mail decodieren

Verwenden Sie für die Dekodierung von Charaktercodierungen, die in E -Mails auftreten, die charset -Kiste, anstatt diese direkt zu verwenden. (Es wickelt diese Kiste um und fügt UTF-7-Dekodierung hinzu.)

Windows -Code -Seiten -Kennungszuordnungen

Verwenden Sie die Kennzeichnung von Windows -Code -Seiten für die Zuordnungen an und von Windows codepage -Seitenkennungen.

DOS -Codierungen

Diese Kiste unterstützt keine Single-Byte-DOS-Codierungen, die von der Webplattform nicht erforderlich sind, sondern die oem_cp Kiste.

Vorbereitung des Textes für die Encoder

Die Normalisierung des Textes in Unicode -Normalisierungsformular C vor dem Codieren von Text in eine ältere Codierung minimiert ungünstige Zeichen. Der Text kann unter Verwendung der icu_normalizer -Kiste auf die Unicode -Normalisierungsform C normalisiert werden.

Die Ausnahme lautet Windows-1258, die nach der Normalisierung der Unicode-Normalisierungsform. C-Markierungen müssen zersetzt werden, um unerträgliche Zeichen zu minimieren. Vietnamesische Tonmarken können mit der detone -Kiste zersetzt werden.

Lizenzierung

TL; DR: (Apache-2.0 OR MIT) AND BSD-3-Clause für die Code- und Datenkombination.

Bitte beachten Sie die Datei mit dem Namen Copyright.

Der Nicht-Test-Code, der nicht aus den whatWG-Daten in dieser Kiste generiert wird, befindet sich unter Apache-2.0 oder MIT. Der Testcode erfolgt unter CC0.

Diese Kiste enthält Code/Daten, die aus whatwg-unterstützten Daten generiert wurden. Der Whatwg-Upstream änderte seine Lizenz für Teile der in den Quellcode von CC0 auf BSD-3-Klausel eingebauten Spezifikationen zwischen der anfänglichen Veröffentlichung dieser Kiste und der vorliegenden Version dieser Kiste. Die In-Source-Lizenzlegenden wurden für die Teile des generierten Codes aktualisiert, die sich seit der Änderung der Upstream-Lizenz geändert haben.

Dokumentation

Generierte API -Dokumentation ist online verfügbar.

Es gibt eine Langform über das Design und die Innenstadt der Kiste.

C- und C ++ - Bindungen

Eine FFI -Ebene für Coding_Rs ist als separate Kiste verfügbar. Die Kiste verfügt über eine Demo C ++ - Wrapper unter Verwendung der C ++ - Standardbibliothek und GSL -Typen.

Die Bindungen für das mem -Modul befinden sich in der Kiste coding_c_mem.

Für den Gecko -Kontext gibt es einen C ++ - Wrapper mit den MFBT/XPCOM -Typen.

Es gibt einen Artikel über die C ++-Wrapper.

Beispielprogramme

Rost
C
C ++

Optionale Funktionen

Derzeit gibt es diese optionalen Frachtfunktionen:

`simd-accel`

Ermöglicht die SIMD-Beschleunigung mithilfe der abhängigen Funktion portable_simd Standard Library.

Dies ist eine Opt-In-Funktion, da es sich um die Möglichkeit, diese Funktion von Rusts Garantien für zukünftige Compiler zu ermöglichen , den alten Code zusammenzustellen (auch bekannt als "Stabilitätsgeschichte").

Derzeit wurde dies bis auf diese Ziele nicht als Verbesserung getestet, und es wird erwartet, dass die simd-accel Funktion den Aufbau auf anderen Zielen brechen wird:

x86_64
I686
aarch64
thumbv7neon

Wenn Sie nächtliche Rost verwenden, verwenden Sie Ziele, deren erste Komponente eines der oben genannten ist, und Sie sind bereit , Ihre Konfiguration beim Aktualisieren von Rost überarbeiten zu müssen . Sie sollten diese Funktion aktivieren. Andernfalls aktivieren Sie diese Funktion nicht .

Von Firefox verwendet.

`serde`

Ermöglicht die Unterstützung der Serialisierung und Deserialisierung &'static Encoding von Strukturen mit SERDE.

Nicht von Firefox verwendet.

`fast-legacy-encode`

Eine Option Catch-All, um die schnellsten Legacy-Encode-Optionen zu aktivieren. Wirkt sich nicht auf die Dekodierung der Geschwindigkeit oder der UTF-8-Enkodierung der Geschwindigkeit aus.

Gegenwärtig entspricht diese Option den folgenden Optionen:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

Fügt der binären Größe 176 kb hinzu.

Nicht von Firefox verwendet.

`fast-hangul-encode`

Änderungen, die vor komponierte Hangul-Silben in EUC-KR codieren, von der binären Suche über die decodoptimierten Tabellen bis hin zur Suche durch Index, sodass koreanische Klartext etwa viermal so schnell wie ohne diese Option codiert.

Fügt der binären Größe 20 kb hinzu.