download encoding_rs - encoding_rs download de código fonte

encoding_rs

Dados do site

1.0.0

Baixar

coding_rs

coding_rs Uma implementação das (partes não Javascript de) o padrão de codificação escrito em ferrugem.

O padrão de codificação define o conjunto compatível com a Web de codificações de caracteres, o que significa que essa caixa pode ser usada para decodificar o conteúdo da Web. O coding_rs é usado em Gecko, começando com o Firefox 56. Devido à sobreposição notável entre as codificações herdadas na web e as codificações legadas usadas nas janelas, essa caixa também pode ser útil para situações não relacionadas à Web; Veja abaixo os links para caixas adjacentes.

Além disso, o módulo mem fornece várias operações para lidar com o texto em RAM (em oposição aos dados que vêm ou indo para um limite de IO). O módulo mem é um módulo em vez de uma caixa separada devido a eficiências de detalhes da implementação interna.

Funcionalidade

Devido ao caso de uso de lagartixas, o Coding_RS suporta a decodificação e a codificação do UTF-16, além de apoiar o caso usual de uso de ferrugem de decodificação e codificação do UTF-8. Além disso, a API foi projetada para ser amigável para acomodar o lado C ++ da Gecko.

Especificamente, o coding_rs faz o seguinte:

Decodifica um fluxo de bytes em um caractere definido por padrão codificando que codifica em RAM UTF-16 alinhado válido em RAM UTF-16 (unidades de u16 / char16_t ).
Codifica um fluxo de IN-RAM UTF-16 alinhado alinhado em potencialmente internados (unidades de u16 / char16_t ) em uma sequência de bytes em um caractere definido por padrão codificando que codifica como se os substitutos solitários tivessem sido substituídos pelo caractere de substituição antes de executar o codificação. (UTF-16 de Gecko é potencialmente inválido.)
Decodifica um fluxo de bytes em um caractere de codificação definido por padrão que codifica no UTF-8 válido.
Codifica um fluxo de UTF-8 válido em uma sequência de bytes em uma codificação de caracteres definida por padrão de codificação. (O UTF-8 da Rust é garantido.)
Faz o exposto no fluxo (entrada e saída divididas em vários buffers) e não transmitindo (entrada inteira em um único buffer e saída inteira em um único buffer).
Evita copiar (empréstimos) quando possível nos casos não transmitidos ao decodificar ou codificar do UTF-8.
Resolve rótulos textuais que identificam codificações de caracteres no texto do protocolo em objetos de tipo segura representando essas codificações conceitualmente.
Mapas Os objetos de codificação segura para tipos em strings adequados para retornar do document.characterSet .
Valida UTF-8 (em cenários de conjunto de instruções comuns um pouco mais rápido para cargas de trabalho da Web do que a Biblioteca Padrão; espero que se unem a montante algum dia) e ASCII.

Além disso, encoding_rs::mem faz o seguinte:

Verifica se um buffer de byte contém apenas ASCII.
Verifica se um buffer UTF-16 potencialmente privado contém apenas latim básico (ASCII).
Verifica se um UTF-8 válido, o buffer UTF-8 potencialmente contratante ou potencialmente internalizado contém apenas pontos de código Latin1 (abaixo de U+0100).
Verifica se um UTF-8 válido, o buffer UTF-18 potencialmente contrabandeado UTF-8 ou potencialmente invalida UTF-16 ou um ponto de código ou uma unidade de código UTF-16 pode desencadear um comportamento da direita para a esquerda (adequado para verificar se o algoritmo bidirecional unicode puder ser otimizado).
Versões combinadas dos dois cheques acima.
Converte o UTF-8 válido, o UTF-8 e o Latin1 potencialmente internalizado em UTF-16.
Converte UTF-16 e Latin1 potencialmente internados em UTF-8.
Converte UTF-8 e UTF-16 em Latin1 (se no intervalo).
Encontra a primeira unidade de código inválida em um buffer do UTF-16 potencialmente internacional.
Faz um buffer mutável de UTF-16 potencial-válido contém UTF-16 válido.
Copia o ASCII de um buffer para outro até o primeiro byte não-ASCII.
Converte ASCII em UTF-16 até o primeiro byte não-ASCII.
Converte o UTF-16 em ASCII até a primeira unidade de código latino não-básico.

Integração com `std::io`

Notavelmente, a lista de recursos acima não inclui a capacidade de embrulhar um std::io::Read , decodificá-lo no UTF-8 e apresentar o resultado via std::io::Read . O encoding_rs_io Crate fornece essa capacidade.

Ambiente `no_std`

A caixa funciona em um ambiente no_std . Por padrão, o recurso alloc , que pressupõe que um alocador esteja presente está ativado. Para um ambiente sem alocador, os recursos padrão (ou seja, alloc ) podem ser desligados. Isso torna a parte da API que retorna Vec / String / Cow Inconomable.

Decodificação de e -mail

Para decodificar as codificações de caracteres que ocorrem em email, use o charset Crate em vez de usar esta diretamente. (Ele envolve esta caixa e adiciona a decodificação UTF-7.)

Mapeamentos de identificador de código do Windows Código

Para mapeamentos de e para os identificadores da página de código do Windows, use o caixote codepage .

Codificações do DOS

Esta caixa não suporta codificações de bytes de bytes que não são necessárias pela plataforma da web, mas a caixa oem_cp faz.

Preparando texto para os codificadores

Normalizar o texto no formulário de normalização do Unicode C antes de codificar o texto em uma codificação herdada minimiza caracteres não aplicáveis. O texto pode ser normalizado para o Formulário de Normalização Unicode C usando a caixa icu_normalizer .

A exceção é o Windows-1258, que depois de normalizar para a normalização do unicode, o Formulário C requer que as marcas de tom sejam decompostas para minimizar caracteres não aplicáveis. As marcas de tom vietnamita podem ser decompostas usando a caixa detone .

Licenciamento

Tl; dr: (Apache-2.0 OR MIT) AND BSD-3-Clause para a combinação de código e dados.

Consulte o arquivo chamado Copyright.

O código não-teste que não é gerado a partir dos dados do WhatWG nesta caixa está no Apache-2.0 ou no MIT. O código de teste está em CC0.

Esta caixa contém código/dados gerados a partir de dados fornecidos pelo WhatWG. O Whatwg Upstream alterou sua licença para partes das especificações incorporadas ao código-fonte do CC0 para a cláusula BSD-3 entre a versão inicial desta caixa e a versão atual deste caixote. As lendas do licenciamento na fonte foram atualizadas para as partes do código gerado que foram alteradas desde a alteração da licença a montante.

Documentação

A documentação da API gerada está disponível online.

Há um artigo longo sobre o design e os internos da caixa.

Cadeiras C e C ++

Uma camada de FFI para Coding_RS está disponível como uma caixa separada. A caixa vem com um invólucro C ++ de demonstração usando os tipos de biblioteca padrão C ++ e GSL.

As ligações para o módulo mem estão na caixa coding_c_mem.

Para o contexto de lagartixa, há um invólucro C ++ usando os tipos MFBT/XPOM.

Há um artigo sobre os invólucros C ++.

Programas de amostra

Ferrugem
C
C ++

Recursos opcionais

Atualmente, existem esses recursos de carga opcionais:

`simd-accel`

Ativa a aceleração SIMD usando o recurso de biblioteca padrão portable_simd dependente noturno.

Esse é um recurso de inscrição, porque ativar esse recurso opta pelas garantias de Rust de compiladores futuros compilando código antigo (também conhecido como. "História de estabilidade").

Atualmente, isso não foi testado como uma melhoria, exceto por esses alvos, e é esperado que o recurso simd-accel divulgue a construção de outros alvos:

x86_64
I686
AARCH64
Thumbv7neon

Se você usar ferrugem noturna, usa alvos cujo primeiro componente é um dos itens acima e está preparado para revisar sua configuração ao atualizar a ferrugem , você deve ativar esse recurso. Caso contrário, não ative esse recurso.

Usado pelo Firefox.

`serde`

Permite o suporte para serializar e desserializar os campos de estrutura do tipo &'static Encoding usando Serde.

Não usado pelo Firefox.

`fast-legacy-encode`

Uma opção de captura-tudo para ativar as opções de codificação mais rápidas do Legacy. Não afeta a velocidade de decodificação ou a velocidade do codificador UTF-8.

Atualmente, esta opção é equivalente a permitir as seguintes opções:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

Adiciona 176 kb ao tamanho binário.

Não usado pelo Firefox.

`fast-hangul-encode`

Alterações que codificam sílabas hangul pré-compostas em Euc-KR da pesquisa binária sobre as tabelas otimizadas para decodificar para procurar por índice, fazendo com que o texto coreano codifique cerca de 4 vezes mais rápido que sem essa opção.

Adiciona 20 kb ao tamanho binário.