Descargar encoding_rs - Descargar el código fuente encoding

encoding_rs

Datos del sitio web

1.0.0

Descargar

encoding_rs

Encoding_rs Una implementación de las (partes no javascript de) el estándar de codificación escrito en óxido.

El estándar de codificación define el conjunto de codificaciones de caracteres compatibles con la web, lo que significa que esta caja puede usarse para decodificar contenido web. Encoding_RS se usa en gecko comenzando con Firefox 56. Debido a la notable superposición entre las codificaciones heredadas en la web y las codificaciones heredadas utilizadas en las ventanas, esta caja también puede ser útil para situaciones no relacionadas con la WEB; Vea a continuación los enlaces a cajas adyacentes.

Además, el módulo mem proporciona varias operaciones para tratar el texto en RAM (a diferencia de los datos que provienen o van a un límite de IO). El módulo mem es un módulo en lugar de una caja separada debido a la eficiencia de los detalles de implementación interna.

Funcionalidad

Debido al caso de uso de gecko, la codificación_rs admite la decodificación y la codificación de UTF-16, además de admitir el caso de uso de óxido habitual de decodificar y codificar desde UTF-8. Además, la API ha sido diseñada para ser amigable con FFI para acomodar el lado C ++ de Gecko.

Específicamente, Encoding_RS hace lo siguiente:

Decodifica una corriente de bytes en un carácter definido por estándar de codificación que codifica en el UTF-16 de EDIAN nativo alineado válido (unidades de u16 / char16_t ).
Codifica una corriente de UTF-16 en RAM nativo de UTF-16 (unidades de u16 / char16_t ) en una secuencia de bytes en un carácter de codificación definido por estándar de codificación como si los sustitutos solitarios hubieran sido reemplazados con el carácter de reemplazo antes de realizar la codificación. (El UTF-16 de Gecko es potencialmente inválido).
Decodifica una corriente de bytes en una codificación de carácter definido por estándar que codifica en UTF-8 válido.
Codifica un flujo de UTF-8 válido en una secuencia de bytes en una codificación de carácter definida por estándar. (El UTF-8 de Rust está garantizado-validal).
Hace lo anterior en transmisión (entrada y salida se dividen en múltiples buffers) y no transmitir (entrada completa en un solo búfer y salida completa en un solo búfer) variantes.
Evita la copia (prestas) cuando es posible en los casos no corrientes al decodificar o codificar desde UTF-8.
Resuelve etiquetas textuales que identifican las codificaciones de caracteres en el texto del protocolo en objetos seguros de tipo que representan las codificaciones conceptualmente.
Mapea los objetos de codificación tipo segura en las cadenas adecuadas para regresar de document.characterSet .
Valida UTF-8 (en los escenarios de establecimiento de instrucciones comunes un poco más rápido para las cargas de trabajo web que la biblioteca estándar; con suerte, se renovará algún día) y ASCII.

Además, encoding_rs::mem hace lo siguiente:

Comprueba si un búfer de byte contiene solo ASCII.
Comprueba si un tampón UTF-16 potencialmente inválido contiene solo latín básico (ASCII).
Comprueba si un UTF-8 válido, UTF-8 potencialmente inválido o el búfer UTF-16 potencialmente inválido contiene solo puntos de código LATIN1 (por debajo de U+0100).
Comprueba si un UTF-8 válido, potencialmente inválido UTF-8 o un búfer UTF-16 potencialmente inválido o un punto de código o una unidad de código UTF-16 puede desencadenar un comportamiento de derecha a izquierda (adecuado para verificar si el algoritmo bidireccional Unicode se puede optimizar).
Versiones combinadas de las dos comprobaciones anteriores.
Convierte UTF-8 válido, potencialmente inválido UTF-8 y Latin1 a UTF-16.
Convierte UTF-16 potencialmente inválido y Latin1 a UTF-8.
Convierte UTF-8 y UTF-16 a Latin1 (si está en el rango).
Encuentra la primera unidad de código no válida en un búfer de UTF-16 potencialmente inválido.
Hace que un tampón mutable de UTF-16 de potencial inválido contenga UTF-16 válido.
Copia ASCII de un amortiguador a otro hasta el primer byte no ascii.
Convierte ASCII a UTF-16 hasta el primer byte no ascii.
Convierte UTF-16 a ASCII hasta la primera unidad de código latino no básico.

Integración con `std::io`

En particular, la lista de características anterior no incluye la capacidad de envolver un std::io::Read , decodificarla en UTF-8 y presentar el resultado a través de std::io::Read . La caja encoding_rs_io proporciona esa capacidad.

entorno `no_std`

La caja funciona en un entorno no_std . De manera predeterminada, la función alloc , que supone que un asignador está presente está habilitado. Para un entorno sin alocator, las características predeterminadas (es decir, alloc ) se pueden apagar. Esto hace que la parte de la API que devuelve Vec / String / Cow no esté disponible.

Decodificación de correo electrónico

Para la decodificación de codificaciones de caracteres que ocurren en el correo electrónico, use la caja charset en lugar de usar esta directamente. (Envuelve esta caja y agrega decodificación UTF-7).

Mapeaciones de identificador de la página del código de Windows

Para las asignaciones hacia y desde los identificadores de la página del código de Windows, use la caja codepage .

Codificaciones de DOS

Esta caja no admite codificaciones DOS de un solo byte que la plataforma web no requiere, pero la caja oem_cp sí.

Preparar texto para los codificadores

Normalizar el texto en unicode Normalización C antes de codificar el texto en una codificación heredada minimiza los caracteres inapropiables. El texto se puede normalizar al formulario de normalización C de unicode utilizando la caja de icu_normalizer .

La excepción es Windows-1258, que después de normalizar al formulario de normalización de Unicode requiere que las marcas de tono se descompusieran para minimizar los caracteres inapropiables. Las marcas de tono vietnamitas se pueden descomponer utilizando la caja detone .

Licencia

TL; DR: (Apache-2.0 OR MIT) AND BSD-3-Clause para el código y la combinación de datos.

Consulte el archivo llamado Copyright.

El código de no prueba que no se genera a partir de los datos de WhatWG en esta caja está bajo Apache-2.0 o MIT. El código de prueba está en CC0.

Esta caja contiene código/datos generados a partir de datos con suministro de WhatWG. El WhatWG Upstream cambió su licencia para partes de especificaciones incorporadas en el código fuente de CC0 a la cláusula BSD-3 entre la versión inicial de esta caja y la versión actual de esta caja. Las leyendas de licencias en la fuente se han actualizado para las partes del código generado que han cambiado desde el cambio de licencia aguas arriba.

Documentación

La documentación de API generada está disponible en línea.

Hay una redacción de forma larga sobre el diseño y las partes internas de la caja.

Enlaces C y C ++

Una capa FFI para coding_rs está disponible como una caja separada. La caja viene con un envoltorio de demostración C ++ utilizando la biblioteca estándar C ++ y los tipos GSL.

Los enlaces para el módulo mem se encuentran en la caja coding_c_mem.

Para el contexto de gecko, hay un envoltorio C ++ usando los tipos MFBT/XPCOM.

Hay un artículo sobre los envoltorios C ++.

Programas de muestra

Óxido
do
C ++

Características opcionales

Actualmente hay estas características de carga opcionales:

`simd-accel`

Habilita la aceleración SIMD utilizando la función de biblioteca estándar portable_simd dependiente de la noche.

Esta es una característica de suscripción, ya que habilitar esta función opta por las garantías de Rust de futuros compiladores que compilan el código antiguo (también conocido como "historia de estabilidad").

Actualmente, esto no se ha probado que sea una mejora, excepto estos objetivos y se espera que la función simd-accel rompa la compilación en otros objetivos:

x86_64
i686
Aarch64
thumbv7neon

Si usa óxido nocturno, usa objetivos cuyo primer componente es uno de los anteriores, y está preparado para tener que revisar su configuración al actualizar el óxido , debe habilitar esta función. De lo contrario, no habilite esta función.

Utilizado por Firefox.

`serde`

Permite el soporte para la serialización y la deserialización &'static Encoding utilizando SERDE.

No utilizado por Firefox.

`fast-legacy-encode`

Una opción de atrapar para habilitar las opciones de codificación de Legacy más rápido. No afecta la velocidad de decodificación o la velocidad de codificación UTF-8.

En la actualidad, esta opción es equivalente a habilitar las siguientes opciones:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

Agrega 176 kb al tamaño binario.

No utilizado por Firefox.

`fast-hangul-encode`

Cambios que codifican las sílabas Hangul precompuestas en EUC-KR de la búsqueda binaria a través de las tablas optimizadas de decodificación para buscar en el índice haciendo que el texto simple coreano codifique aproximadamente 4 veces más rápido que sin esta opción.

Agrega 20 kb al tamaño binario.