Unduh encoding_rs - unduhan kode sumber encoding

encoding_rs

Data situs web

1.0.0

Unduh

encoding_rs

encoding_rs Implementasi dari (bagian non-javascript dari) standar penyandian yang ditulis dalam karat.

Standar pengkodean mendefinisikan set pengkodean karakter yang kompatibel dengan web, yang berarti peti ini dapat digunakan untuk memecahkan kode konten web. encoding_rs digunakan di tokek dimulai dengan Firefox 56. Karena tumpang tindih yang terkenal antara pengkodean warisan di web dan pengkodean warisan yang digunakan pada jendela, peti ini mungkin digunakan untuk situasi yang tidak terkait dengan WEB juga; Lihat di bawah untuk tautan ke peti yang berdekatan.

Selain itu, modul mem menyediakan berbagai operasi untuk berurusan dengan teks in-ram (berbeda dengan data yang berasal dari atau pergi ke batas IO). Modul mem adalah modul, bukan peti terpisah karena efisiensi detail implementasi internal.

Fungsionalitas

Karena case penggunaan tokek, encoding_rs mendukung decoding ke dan encoding dari UTF-16 selain mendukung kasus decoding penggunaan karat yang biasa ke dan pengkodean dari UTF-8. Selain itu, API telah dirancang agar ramah FFI untuk mengakomodasi sisi C ++ Gecko.

Secara khusus, encoding_rs melakukan hal berikut:

Decodes aliran byte dalam pengkodean karakter yang ditentukan standar encoding ke dalam UTF-16 asli-end yang diselaraskan valid (unit u16 / char16_t ).
Mengkodekan aliran UTF-16 asli yang berpotensi bervalid (unit u16 / char16_t ) menjadi urutan byte dalam pengkodean karakter yang ditentukan standar seolah-olah pengganti tunggal telah diganti dengan karakter pengganti sebelum melakukan enkode. (UTF-16 Gecko berpotensi tidak valid.)
Mendekode aliran byte dalam pengkodean karakter yang ditentukan standar yang dikodekan ke UTF-8 yang valid.
Mengkodekan aliran UTF-8 yang valid ke dalam urutan byte dalam pengkodean karakter yang ditentukan standar. (Rust's UTF-8 dijamin-valid.)
Apakah di atas dalam streaming (input dan output terbagi di beberapa buffer) dan non-streaming (seluruh input dalam buffer tunggal dan seluruh output dalam buffer tunggal) varian.
Hindari menyalin (peminjam) bila memungkinkan dalam kasus non-streaming saat mendekode atau pengkodean dari UTF-8.
Menyelesaikan label tekstual yang mengidentifikasi pengkodean karakter dalam teks protokol menjadi objek yang aman jenis yang mewakili pengkodean tersebut secara konseptual.
Memetakan objek pengkodean jenis-aman ke string yang cocok untuk kembali dari document.characterSet .
Memvalidasi UTF-8 (dalam skenario set instruksi umum sedikit lebih cepat untuk beban kerja web daripada perpustakaan standar; semoga akan menjadi upstream suatu hari) dan ASCII.

Selain itu, encoding_rs::mem melakukan hal berikut:

Periksa apakah buffer byte hanya berisi ASCII.
Memeriksa apakah buffer UTF-16 yang berpotensi invalid hanya berisi dasar Latin (ASCII).
Periksa apakah UTF-8 yang valid, Buffer UTF-16 yang berpotensi invalid, atau buffer UTF-16 yang berpotensi invalid hanya berisi titik-titik kode Latin (di bawah U+0100).
Memeriksa apakah UTF-8 yang valid, UTF-16 yang berpotensi tidak bervalid atau buffer UTF-16 yang berpotensi invalid atau titik kode atau unit kode UTF-16 dapat memicu perilaku kanan-ke-kiri (cocok untuk memeriksa apakah algoritma dua arah unicode dapat dioptimalkan keluar).
Versi gabungan dari dua cek di atas.
Konversi UTF-8 yang valid, Potensi-Invalid UTF-8 dan Latin1 ke UTF-16.
Konversi UTF-16 dan Latin1 yang berpotensi invalid ke UTF-8.
Konversi UTF-8 dan UTF-16 ke Latin1 (jika dalam jangkauan).
Menemukan unit kode tidak valid pertama dalam buffer UTF-16 yang berpotensi invalid.
Membuat buffer yang dapat berubah dari potensi-invalid UTF-16 berisi UTF-16 yang valid.
Menyalin ASCII dari satu buffer ke yang lain hingga byte non-ASSASI pertama.
Mengubah ASCII menjadi UTF-16 hingga byte non-ASCII pertama.
Konversi UTF-16 menjadi ASCII hingga unit kode Latin non-Basic pertama.

Integrasi dengan `std::io`

Khususnya, daftar fitur di atas tidak termasuk kemampuan untuk membungkus std::io::Read , decode ke UTF-8 dan menyajikan hasilnya melalui std::io::Read . Peti encoding_rs_io menyediakan kemampuan itu.

Lingkungan `no_std`

Peti bekerja di lingkungan no_std . Secara default, fitur alloc , yang mengasumsikan bahwa alokasi diaktifkan. Untuk lingkungan no-allocator, fitur default (yaitu alloc ) dapat dimatikan. Ini membuat bagian dari API yang mengembalikan Vec / String / Cow tidak tersedia.

Email decoding

Untuk pengkodean karakter decoding yang terjadi dalam email, gunakan charset Crate alih -alih menggunakan yang ini secara langsung. (Itu membungkus peti ini dan menambahkan decoding UTF-7.)

Pemetaan pengidentifikasi halaman kode windows

Untuk pemetaan ke dan dari pengidentifikasi halaman kode Windows, gunakan peti codepage .

Pengkodean DOS

Peti ini tidak mendukung penyandian DOS byte tunggal yang tidak diperlukan oleh platform web, tetapi peti oem_cp melakukannya.

Mempersiapkan teks untuk Encoders

Normalisasi teks ke dalam bentuk normalisasi unicode C sebelum mengkodekan teks ke dalam pengkodean warisan meminimalkan karakter yang tidak dapat diabaikan. Teks dapat dinormalisasi ke bentuk normalisasi unicode C menggunakan peti icu_normalizer .

Pengecualiannya adalah Windows-1258, yang setelah menormalkan ke unicode normalisasi bentuk C membutuhkan tanda nada untuk didekomposisi untuk meminimalkan karakter yang tidak dapat dipetakan. Tanda nada Vietnam dapat terurai menggunakan peti detone .

Lisensi

TL; DR: (Apache-2.0 OR MIT) AND BSD-3-Clause untuk kombinasi kode dan data.

Silakan lihat file bernama Hak Cipta.

Kode non-tes yang tidak dihasilkan dari data WhatWG di peti ini berada di bawah Apache-2.0 atau MIT. Kode uji berada di bawah CC0.

Peti ini berisi kode/data yang dihasilkan dari data yang disediakan. Hulu WhatWG mengubah lisensi untuk bagian spesifikasi yang dimasukkan ke dalam kode sumber dari CC0 menjadi BSD-3-Clause antara rilis awal peti ini dan versi peti ini saat ini. Legenda lisensi dalam sumber telah diperbarui untuk bagian-bagian kode yang dihasilkan yang telah berubah sejak perubahan lisensi hulu.

Dokumentasi

Dokumentasi API yang dihasilkan tersedia secara online.

Ada tulisan panjang tentang desain dan internal peti.

Binding C dan C ++

Lapisan FFI untuk encoding_rs tersedia sebagai peti terpisah. Peti dilengkapi dengan pembungkus Demo C ++ menggunakan tipe Perpustakaan C ++ Standar dan GSL.

Binding untuk modul mem ada di krat encoding_c_mem.

Untuk konteks tokek, ada pembungkus C ++ menggunakan tipe MFBT/XPCOM.

Ada tulisan tentang pembungkus C ++.

Program sampel

Karat
C
C ++

Fitur opsional

Saat ini ada fitur kargo opsional ini:

`simd-accel`

Mengaktifkan akselerasi SIMD menggunakan fitur pustaka standar portable_simd yang bergantung pada malam hari.

Ini adalah fitur opt-in, karena memungkinkan fitur ini memilih keluar dari jaminan Rust untuk kompiler di masa depan yang menyusun kode lama (alias. "Stability Story").

Saat ini, ini belum diuji sebagai peningkatan kecuali untuk target ini dan memungkinkan fitur simd-accel diharapkan untuk memecah build pada target lain:

x86_64
I686
aarch64
thumbv7neon

Jika Anda menggunakan karat malam, Anda menggunakan target yang komponen pertamanya adalah salah satu dari yang di atas, dan Anda siap untuk merevisi konfigurasi saat memperbarui karat , Anda harus mengaktifkan fitur ini. Kalau tidak, tolong jangan aktifkan fitur ini.

Digunakan oleh Firefox.

`serde`

Mengaktifkan dukungan untuk serial dan deserialization &'static Encoding -typed struct bidang menggunakan Serde.

Tidak digunakan oleh Firefox.

`fast-legacy-encode`

Opsi Catch-All untuk mengaktifkan opsi ENCODE Legacy tercepat. Tidak mempengaruhi kecepatan decode atau kecepatan encode UTF-8.

Saat ini, opsi ini setara dengan mengaktifkan opsi berikut:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

Menambahkan 176 kb ke ukuran biner.

Tidak digunakan oleh Firefox.

`fast-hangul-encode`

Perubahan yang mengkode suku kata hangul yang telah dikomposisi ke dalam EUC-KR dari pencarian biner atas tabel yang dioptimalkan decode untuk dicari dengan indeks membuat teks-teks Korea mengkode sekitar 4 kali lebih cepat dari tanpa opsi ini.

Menambahkan 20 kb ke ukuran biner.