Скачать encoding_rs - encoding_rs исходный код скачать

encoding_rs

Данные веб-сайта

1.0.0

Скачать

Encoding_rs

Encoding_RS Реализация (не Javascript Parts of) стандарта кодирования, написанного в ржавчине.

Стандарт кодирования определяет веб-совместимый набор кодировки символов, что означает, что этот ящик может использоваться для декодирования веб-контента. Encoding_RS используется в гекконе, начиная с Firefox 56. Из-за заметного совпадения между устаревшими кодировками в Интернете и устаревшими кодировками, используемыми в Windows, этот ящик может использоваться и для не связанных с WEB ситуаций; Смотрите ниже ссылки на соседние ящики.

Кроме того, модуль mem обеспечивает различные операции для работы с текстом в RAM (в отличие от данных, которые поступают или переходят на границу IO). mem модуль представляет собой модуль вместо отдельного ящика из -за эффективности внутренней реализации.

Функциональность

В связи с вариантом использования геккона, Encoding_RS поддерживает декодирование и кодировку от UTF-16 в дополнение к тому, чтобы поддержать обычный случай использования ржавчины и кодировки от UTF-8. Кроме того, API был разработан, чтобы быть FFI-дружественным, чтобы приспособить сторону C ++ Gecko.

В частности, Encoding_RS делает следующее:

Декодирует поток байтов в кодирующем стандартно-определенном символе, кодирующем в допустимых выровненных нативных индиана UTF-16 (единицы u16 / char16_t ).
Кодирует поток потенциально инвалидов, выровненного нативного индиана UTF-16 (единиц u16 / char16_t ) в последовательность байтов в кодирующем стандартно определяемом символе, как если бы одинокие суррогаты были заменены заменяющим символом перед выполнением экодирования. (Gecko's UTF-16 потенциально недействителен.)
Декодирует поток байтов в кодирующем стандартно-определенном символе, кодирующем в действительном UTF-8.
Кодирует поток достоверного UTF-8 в последовательность байтов в кодирующем стандартно-определенном кодировании символов. (Rust's UTF-8 имеет гарантированную стоимость.)
Делается ли выше в потоковой (входной и выходной и выходной сигналах на нескольких буферах) и без потокового (всего ввода в одном буфере и целых выходных вариантах в одном буфере).
Избегает копирования (заимствуя), когда это возможно, в не потоковых случаях при декодировании или кодировании из UTF-8.
Разрешает текстовые этикетки, которые идентифицируют кодирования символов в тексте протокола в объекты-безопасных типа, представляющие эти концептуальные кодировки.
Карты, безопасные для типов объектов кодирования на строки, подходящие для возвращения из document.characterSet .
Утверждает UTF-8 (в общих сценариях набора инструкций немного быстрее для веб-нагрузки, чем стандартная библиотека; надеюсь, когда-нибудь вверх по течению) и ASCII.

Кроме того, encoding_rs::mem делает следующее:

Проверяет, содержит ли байтовый буфер только ASCII.
Проверяет, содержит ли потенциально инвалидный буфер UTF-16 содержит только базовые латыни (ASCII).
Проверяет, есть ли действительный UTF-8, потенциально-инвалидный UTF-8 или потенциально инвалидный буфер UTF-16 содержит только кодовые точки Latin1 (ниже U+0100).
Проверяет, действительно ли действительный UTF-8, потенциально-инвалидный UTF-8 или потенциально-инвалидный буфер UTF-16 или кодовая точка или кодовая единица UTF-16, может инициировать поведение правого к лебку (подходящее для проверки, если может быть оптимизирован алгоритм двунаправления Unicode).
Комбинированные версии вышеупомянутых двух проверок.
Преобразует действительный UTF-8, потенциально-инвалидный UTF-8 и Latin1 в UTF-16.
Преобразует потенциально инвалидный UTF-16 и Latin1 в UTF-8.
Преобразует UTF-8 и UTF-16 в Latin1 (если в диапазоне).
Находит первый неверный кодовый блок в буфере потенциально инвалидной UTF-16.
Делает измененный буфер потенциального инвалида UTF-16 содержит допустимый UTF-16.
Копии ASCII из одного буфера в другой до первого байта не ASCII.
Преобразует ASCII в UTF-16 до первого байта без ASCII.
Преобразует UTF-16 в ASCII до первого не базового латинского кода.

Интеграция со `std::io`

Примечательно, что приведенный выше список функций не включает в себя возможность обернуть std::io::Read , декодировать его в UTF-8 и представить результат через std::io::Read . Ящик encoding_rs_io предоставляет эту возможность.

`no_std` среда

Ящик работает в среде no_std . По умолчанию функция alloc , которая предполагает, что присутствует распределитель. Для среды без распределения функции по умолчанию (т.е. alloc ) могут быть отключены. Это делает часть API, которая возвращает Vec / String / Cow недоступной.

Декодирование электронной почты

Для декодирования кодировки символов, которые встречаются в электронной почте, используйте ящик charset вместо использования этого напрямую. (Он завершает этот ящик и добавляет декодирование UTF-7.)

Сопоставления идентификации кода Windows

Для отображений с идентификаторами кода Windows и из кодового кода используйте ящик codepage .

DOS -кодирования

Этот ящик не поддерживает однобайтные кодировки DOS, которые не требуются веб-платформой, но ящик oem_cp делает.

Подготовка текста для кодеров

Нормализация текста в форму нормализации Unicode C Перед кодированием текста в устаревшее кодирование сводит к минимуму неподвижные символы. Текст может быть нормализован до формы нормализации Unicode C, используя ящик icu_normalizer .

Исключением является Windows-1258, которая после нормализации до формы нормализации Unicode C, требует разложения тональных знаков, чтобы минимизировать непоколебимые символы. Вьетнамские тональные знаки могут быть разложены с использованием ящика detone .

Лицензирование

TL; DR: (Apache-2.0 OR MIT) AND BSD-3-Clause для комбинации кода и данных.

Пожалуйста, смотрите файл с именем Copyright.

Код без тестирования, который не генерируется из данных WhatWG в этом ящике, находится под Apache-2.0 или MIT. Тестовый код находится под CC0.

Этот ящик содержит код/данные, сгенерированные из данных, приплеванных WhatWG. WhatWG Upstream изменила свою лицензию на части спецификаций, включенных в исходный код от CC0 на BSD-3-оценить между первоначальным выпуском этого ящика и нынешней версией этого ящика. Легенды лицензирования в исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном исходном стиле были обновлены для частей сгенерированного кода, которые изменились с момента изменения лицензии вверх по течению.

Документация

Сгенерированная документация API доступна онлайн.

Существует длинная запись о дизайне и внутренних органах ящика.

Связывания C и C ++

Слой FFI для Encoding_RS доступен в виде отдельного ящика. Ящик поставляется с демо -оболочкой C ++ с использованием стандартной библиотеки C ++ и типов GSL.

Привязки для модуля mem находятся в ящике Encoding_C_MEM.

Для контекста геккона есть обертка C ++, использующая типы MFBT/XPCOM.

Есть запись о обертках C ++.

Образцы программ

Ржавчина
В
C ++

Дополнительные функции

В настоящее время эти дополнительные грузовые функции:

`simd-accel`

Включает ускорение SIMD с использованием ночной зависимой от ночной функции стандартной библиотеки portable_simd .

Это функция Oct-In, потому что позволяет этой функции выходить из гарантий Rust от будущих компиляторов, компилирующих старый код (он же «История стабильности»).

В настоящее время это не было проверено как улучшение, за исключением этих целей, и ожидается, что функция simd-accel сломает строительство на других целях:

x86_64
I686
Aarch64
Thumbv7neon

Если вы используете ночную ржавчину, вы используете цели, первый компонент которого является одним из вышеперечисленных, и вы готовы пересмотреть свою конфигурацию при обновлении ржавчины , вы должны включить эту функцию. В противном случае, пожалуйста, не включайте эту функцию.

Используется Firefox.

`serde`

Обеспечивает поддержку сериализации и пустыни &'static Encoding -поля структуры с использованием Serde.

Не используется Firefox.

`fast-legacy-encode`

Опция All-All для включения самых быстрых параметров кодирования Legacy. Не влияет на скорость декодирования или скорость кодирования UTF-8.

В настоящее время эта опция эквивалентна включению следующих параметров:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

Добавляет 176 КБ к бинарному размеру.

Не используется Firefox.

`fast-hangul-encode`

Изменения, кодирующие предварительные слоги Hangul, в EUC-KR из бинарного поиска по декодированным таблицам, чтобы поиск по индексу, создавая кодирование корейского простого текста примерно в 4 раза быстрее, чем без этой опции.

Добавляет 20 КБ к бинарному размеру.