تنزيل encoding_rs - تنزيل رمز المصدر encoding

encoding_rs

بيانات الموقع

1.0.0

تنزيل

encoding_rs

تشفير isoding_rs تطبيق (الأجزاء غير الجاف) من المعيار الترميز المكتوب في الصدأ.

يحدد معيار الترميز مجموعة تشفير الأحرف المتوافقة مع الويب ، مما يعني أنه يمكن استخدام هذا الصندوق لفك تشفير محتوى الويب. يتم استخدام encoding_rs في Gecko بدءًا من Firefox 56. نظرًا للتداخل الملحوظ بين الترميزات القديمة على الويب والتشفيرات القديمة المستخدمة على Windows ، قد يكون هذا القفص مفيدًا في المواقف غير المرتبطة بـ Web ؛ انظر أدناه للحصول على روابط إلى الصناديق المجاورة.

بالإضافة إلى ذلك ، توفر وحدة mem عمليات مختلفة للتعامل مع النص داخل الرم (على عكس البيانات التي تأتي من أو الذهاب إلى حدود IO). وحدة mem عبارة عن وحدة نمطية بدلاً من صندوق منفصل بسبب كفاءة تفاصيل التنفيذ الداخلية.

الوظيفة

نظرًا لحالة استخدام GECKO ، يدعم encoding_rs فك التشفير والترميز من UTF-16 بالإضافة إلى دعم حالة استخدام الصدأ المعتادة من فك التشفير والترميز من UTF-8. بالإضافة إلى ذلك ، تم تصميم واجهة برمجة التطبيقات لتكون صديقة FFI لاستيعاب الجانب C ++ من Gecko.

على وجه التحديد ، يقوم isoding_rs بما يلي:

يدلل حدوث دفق من البايتات في حرف ترميز محدد المعرفة القياسية إلى محاذاة محاذاة محاذاة محاذاة in-ram utf-16 (وحدات u16 / char16_t ).
يشفر دفق من UTF-RAM-RAM-RAM-16 (وحدات u16 / char16_t ) المحتملة المحتملة في سلسلة من البايتات في حرف ترميز محدد المعالم المعرفة كما لو أن البديل الوحيد قد تم استبداله بالحروف البديلة قبل أداء الترميز. (من المحتمل أن يكون Gecko's UTF-16 غير صالح.)
يدلل حدوث دفق من البايتات في حرف ترميز محدد المعرفة القياسية إلى UTF-8 صالح.
يشفر دفق من UTF-8 الصالح في تسلسل بايت في تشفير حرف محدد قياسي. (Rust's UTF-8 مضمون-Valid.)
هل ما ورد أعلاه في التدفق (انقسم الإدخال والإخراج عبر مخازن مؤقتة متعددة) وبطاقات غير متزايدة (إدخال كامل في مخزن مؤقت واحد وإخراج كامل في مخزن مؤقت واحد).
يتجنب النسخ (المقترضات) عندما يكون ذلك ممكنًا في الحالات غير المتجول عند فك تشفير أو الترميز من UTF-8.
يحل الملصقات النصية التي تحدد تشفير الأحرف في نص البروتوكول إلى كائنات آمنة من النوع التي تمثل تلك الترميزات من الناحية النظرية.
يعرض كائنات ترميز النوع الآمن على سلاسل مناسبة للعودة من document.characterSet .
يتحقق التحقق من صحة UTF-8 (في سيناريوهات مجموعة التعليمات الشائعة أسرع قليلاً لأعباء عمل الويب من المكتبة القياسية ؛ نأمل أن يتم تنظيمها في يوم من الأيام) و ASCII.

بالإضافة إلى ذلك ، encoding_rs::mem يفعل ما يلي:

يتحقق إذا كان المخزن المؤقت بايت يحتوي على ASCII فقط.
يتحقق مما إذا كان المخزن المؤقت المحتمل في UTF-16 يحتوي على اللاتينية الأساسية فقط (ASCII).
يتحقق إذا كان UTF-8 صالحًا ، أو محتملًا في UTF-8 أو المخزن المؤقت المحتمل في UTF-16 يحتوي على نقاط رمز LATIN1 فقط (أدناه U+0100).
يتحقق مما إذا كان UTF-8 صالحًا ، أو محتملة UTF-8 أو محتملة العازلة UTF-16 أو نقطة رمز أو وحدة رمز UTF-16 يمكن أن تؤدي إلى سلوك يمين إلى اليسار (مناسبة للتحقق مما إذا كان يمكن تحسين خوارزمية ثنائية الاتجاه Unicode).
إصدارات مجتمعة من الشيكين أعلاه.
يحول UTF-8 صالحة ، وربما UTF-8 و LATIN1 إلى UTF-16.
يحول محتمل utf-16 و Latin1 إلى UTF-8.
يحول UTF-8 و UTF-16 إلى LATIN1 (إذا في المدى).
يجد أول وحدة رمز غير صالحة في مخزن المؤقت من UTF-16 المحتمل.
يجعل المخزن المؤقت القابل للتغيير من UTF-16 المحتملة يحتوي على UTF-16 صالحة.
نسخ ASCII من مخزن مؤقت إلى آخر حتى أول بايت غير ASCII.
يحول ASCII إلى UTF-16 حتى أول بايت غير ASCII.
يحول UTF-16 إلى ASCII إلى أول وحدة الكود اللاتيني غير الأساسي.

التكامل مع `std::io`

والجدير بالذكر أن قائمة الميزات أعلاه لا تتضمن القدرة على لف std::io::Read ، فك تشفيرها في UTF-8 وتقديم النتيجة عبر std::io::Read . يوفر قفص encoding_rs_io تلك القدرة.

بيئة `no_std`

يعمل الصندوق في بيئة no_std . بشكل افتراضي ، يتم تمكين ميزة alloc ، والتي تفترض أن مخصصًا موجودًا. بالنسبة لبيئة عدم التخصيص ، يمكن إيقاف تشغيل الميزات الافتراضية (أي alloc ). هذا يجعل جزء API الذي يعيد Vec / String / Cow غير متوفر.

فك تشفير البريد الإلكتروني

لفك تشفير الأحرف التي تحدث في البريد الإلكتروني ، استخدم صندوق charset بدلاً من استخدام هذا الجهاز مباشرة. (يلف هذا الصندوق ويضيف فك تشفير UTF-7.)

تعيينات صفحة رمز Windows Mappings

بالنسبة إلى التعيينات من وإلى معرفات صفحة رمز Windows ، استخدم codepage Crate.

تشفيرات الدوس

لا يدعم هذا الصندوق ترميزات DOS أحادية البايت التي لا تتطلبها منصة الويب ، ولكن قفص oem_cp .

تحضير النص للتشفير

تطبيع النص في نموذج تطبيع Unicode C قبل تشفير النص في ترميز قديم يقلل من الأحرف التي لا يمكن تركها. يمكن تطبيع النص إلى نموذج تطبيع Unicode C باستخدام صندوق icu_normalizer .

الاستثناء هو Windows-1258 ، والذي بعد تطبيع نموذج التطبيع C-unicode يتطلب تحلل علامات النغمة من أجل تقليل الأحرف التي لا يمكن تغطيتها. يمكن أن تتحلل علامات النغمة الفيتنامية باستخدام detone Crate.

الترخيص

TL ؛ DR: (Apache-2.0 OR MIT) AND BSD-3-Clause للرمز والبيانات.

يرجى الاطلاع على الملف المسماة حقوق الطبع والنشر.

رمز غير الاختبار الذي لم يتم إنشاؤه من بيانات Whatwg في هذا الصندوق تحت Apache-2.0 أو MIT. رمز الاختبار تحت CC0.

يحتوي هذا الصندوق على رمز/بيانات تم إنشاؤها من بيانات WhatWG. غيرت Whatwg Opstream ترخيصها لأجزاء من المواصفات التي تم دمجها في رمز المصدر من CC0 إلى BSD-3 بين الإصدار الأولي لهذا الصندوق والإصدار الحالي من هذا الصندوق. تم تحديث أساطير الترخيص أثناء المصدر لأجزاء الكود الذي تم إنشاؤه والتي تغيرت منذ تغيير ترخيص المنبع.

الوثائق

تتوفر وثائق API التي تم إنشاؤها عبر الإنترنت.

هناك كتابة طويلة الشكل حول تصميم وصندوق الصندوق.

روابط C و C ++

تتوفر طبقة FFI لـ encoding_rs كصندوق منفصل. يأتي الصندوق مع غلاف C ++ التجريبي باستخدام أنواع المكتبة القياسية C ++ وأنواع GSL.

روابط وحدة mem موجودة في CRATERING_C_MEM.

بالنسبة لسياق Gecko ، هناك غلاف C ++ باستخدام أنواع MFBT/XPCOM.

هناك كتابة عن أغلفة C ++.

عينة برامج

الصدأ
ج
C ++

ميزات اختيارية

يوجد حاليًا هذه ميزات الشحن الاختيارية:

`simd-accel`

يتيح تسريع SIMD باستخدام ميزة مكتبة portable_simd المعتمدة على المعتمد ليلياً.

هذه ميزة التقيد ، لأن تمكين هذه الميزة يختتم من ضمانات Rust للمترجمين المستقبليين الذين يقومون بتجميع الكود القديم (المعروف أيضًا باسم "قصة الاستقرار").

في الوقت الحالي ، لم يتم اختبار هذا ليكون تحسناً باستثناء هذه الأهداف وتمكين ميزة simd-accel من المتوقع أن يكسر البناء على أهداف أخرى:

x86_64
I686
AARCH64
Thumbv7neon

إذا كنت تستخدم الصدأ الليلي ، فأنت تستخدم الأهداف التي يكون مكونها الأول أحد ما سبق ، وكنت مستعدًا للمراجعة تكوينك عند تحديث الصدأ ، يجب عليك تمكين هذه الميزة. خلاف ذلك ، يرجى عدم تمكين هذه الميزة.

تستخدم من قبل Firefox.

`serde`

يمكّن الدعم للتسلسل والتخلص من حقول الهيكل &'static Encoding باستخدام Serde.

لا تستخدم من قبل Firefox.

`fast-legacy-encode`

خيار الجهد لتمكين خيارات التشفير القديمة الأسرع. لا يؤثر على سرعة فك الشفرة أو سرعة تشفير UTF-8.

في الوقت الحاضر ، هذا الخيار يعادل تمكين الخيارات التالية:

fast-hangul-encode
fast-hanja-encode
fast-kanji-encode
fast-gb-hanzi-encode
fast-big5-hanzi-encode

يضيف 176 كيلو بايت إلى الحجم الثنائي.

لا تستخدم من قبل Firefox.

`fast-hangul-encode`

التغييرات التي تشفر مقاطع هانغول مسبقة في EUC-KR من البحث الثنائي على الجداول المحسّنة التي يتم فكها للبحث عن طريق فهرس جعل النص العادي الكوري يشفر حوالي 4 مرات بالسرعة دون هذا الخيار.

يضيف 20 كيلو بايت إلى الحجم الثنائي.

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`fast-hanja-encode`

التغييرات التي تشفر هانجا في EUC-KR من البحث الخطي على الجدول المحسّن من أجل فك الشفرة إلى الفهرس. نظرًا لأن Hanja غائب عملياً في النص الكوري الحديث ، فإن هذا الخيار لا يؤثر على perfomance في الحالة المشتركة ، ومن المنطقي بشكل أساسي إذا كنت ترغب في جعل التطبيق الخاص بك مرنًا إنكارًا للخدمة من قبل شخص ما يطعمه كثيرًا من Hanja لتشفيره إلى EUC-KR.

يضيف 40 كيلو بايت إلى الحجم الثنائي.

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`fast-kanji-encode`

التغييرات التي تشفر kanji في shift_jis و euc-jp و iso-2022-jp من البحث الخطي على الجداول المحسّنة التي يتم فكها للبحث عن طريق فهرس صنع النص الياباني للنص العادي إلى الترميزات القديمة من 30 إلى 50 مرة بأسرع ما دون هذا الخيار (حوالي 2 مرة كما هو الحال مع less-slow-kanji-encode ).

يأخذ الأسبقية على less-slow-kanji-encode .

يضيف 36 كيلو بايت إلى الحجم الثنائي (24 كيلو بايت مقارنة مع less-slow-kanji-encode ).

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`less-slow-kanji-encode`

يجعل JIS X 0208 المستوى 1 Kanji (الأكثر شيوعًا Kanji في Shift_jis و EUC-JP و ISO-2022-JP) يشفر بطيئًا (البحث الثنائي بدلاً من البحث الخطي) مما يجعل النص النص العادي الياباني ترميزًا إلى الترميزات القديمة من 14 إلى 23 مرة دون هذا الخيار.

يضيف 12 كيلو بايت إلى الحجم الثنائي.

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`fast-gb-hanzi-encode`

التغييرات التي تشفر تشفير hanzi في Ideographs الموحد CJK في GBK و GB18030 من البحث الخطي على جزء من الجداول المحسنة فك تشفير تليها البحث الثنائي على جزء آخر من الطاولات المغطاة بالتشفير (حوالي 2.5 إلى الفهرس جعل النص الصيني مبسط الترميز للترفيهات القديمة 100- less-slow-gb-hanzi-encode ).

يأخذ الأسبقية على less-slow-gb-hanzi-encode .

يضيف 36 كيلو بايت إلى الحجم الثنائي (24 كيلو بايت مقارنة مع less-slow-gb-hanzi-encode ).

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`less-slow-gb-hanzi-encode`

يجعل GB2312 من المستوى 1 Hanzi (أكثر هانزي شيوعًا في GB18030 و GBK) يشفر أقل بطيئة (البحث الثنائي بدلاً من البحث الخطي) مما يجعل النص النص الصيني البسيط مبسطًا على الترميزات القديمة حوالي 40 مرة بأسرع ما دون هذا الخيار.

يضيف 12 كيلو بايت إلى الحجم الثنائي.

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`fast-big5-hanzi-encode`

التغييرات التي تشفر Hanzi في Ideographs الموحدة CJK في حظر Big5 من البحث الخطي على جزء من الجداول المحسّنة التي تحسنتها الفهرس عن طريق تصنيع النص الصيني الصيني التقليدي إلى BIG5 إلى 125 مرة بأسرع هذا الخيار (حوالي 3 مرات بنفس السرعة مع less-slow-big5-hanzi-encode ).

يأخذ الأسبقية على less-slow-big5-hanzi-encode .

يضيف 40 كيلو بايت إلى الحجم الثنائي (20 كيلو بايت مقارنة مع less-slow-big5-hanzi-encode ).

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

`less-slow-big5-hanzi-encode`

يجعل Hanzi من المستوى 1 BIG5 (هانزي الأكثر شيوعًا في Big5) يشفر بطيئًا (البحث الثنائي بدلاً من البحث الخطي) مما يجعل النص الصيني الصيني التقليدي يشفر إلى Big5 حوالي 36 مرة بأسرع ما دون هذا الخيار.

يضيف 20 كيلو بايت إلى الحجم الثنائي.

لا يؤثر على سرعة فك التشفير.

لا تستخدم من قبل Firefox.

أهداف الأداء

لفك تشفير UTF-16 ، الهدف هو الأداء على الأقل وكذلك UCCONV من Gecko. لفك تشفير UTF-8 ، الهدف هو الأداء على الأقل وكذلك ترميز الصدأ. وقد تم تحقيق هذه الأهداف.

يجب أن يكون الترميز إلى UTF-8 سريعًا. (يجب أن تكون UTF-8 إلى UTF-8 تشفير ما يعادل memcpy و UTF-16 إلى UTF-8 يجب أن تكون سريعة.)

السرعة هي غير عازمة عند الترميز على الترميزات القديمة. بشكل افتراضي ، لا ينبغي تحسين الترميز إلى الترميزات القديمة للسرعة على حساب حجم الرمز طالما أن تقديم النموذج وحلية URL في Gecko لا يصبحون بطيئين للغاية في الاستخدام في العالم الحقيقي.

في مصلحة الحجم الثنائي ، بشكل افتراضي ، لا يحتوي isoding_rs على جداول بيانات خاصة بالتشفير تتجاوز 32 بت من البيانات الخاصة بالتشفير لكل ترميز بايت واحد. لذلك ، تفحص المشفرات جداول البيانات المحسنة. هذا بحث خطي في معظم الحالات. نتيجة لذلك ، بشكل افتراضي ، يختلف الترميز إلى الترميزات القديمة من بطيئة إلى بطيئة للغاية بالنسبة للمكتبات الأخرى. ومع ذلك ، مع أحمال العمل الواقعية ، بدا هذا سريعًا بما يكفي حتى لا يكون بطيئًا بشكل سيء على Raspberry Pi 3 (والذي كان يمثل هاتفًا للاختبار) في حالات استخدام التشفير المعرضة على شبكة الإنترنت.

شاهد ميزات الشحن أعلاه لجعل CJK Legacy Encode سريعًا.

يتوفر إطار لقياس الأداء بشكل منفصل.

توافق إصدار الصدأ

إنه هدف لدعم أحدث الصدأ المستقر ، وأحدث الصدأ الليلي ونسخة الصدأ المستخدمة في Firefox Nightly.

في هذا الوقت ، لا يوجد التزام حازم بدعم نسخة أقدم من ما هو مطلوب من قبل Firefox ، وليس هناك التزام بمعالجة تغييرات MSRV باعتبارها خارقة Semver ، لأن هذا الصندوق يعتمد على cfg-if ، والذي لا يبدو أنه يعامل تغييرات MSRV على أنها تحطم Semver ، لذلك سيكون من غير المجدي أن يعامل هذا الرابطة تغييرات MSRV.

اعتبارًا من 2024-11-01 ، يبدو أن MSRV هو الصدأ 1.40.0 لاستخدام الصندوق و 1.42.0 للاختبارات المستندات لتمريرها دون أخطاء حول المخصص العالمي. مع ميزة simd-accel ، يكون MSRV أعلى.

التوافق مع ترميز الصدأ

يتم توفير طبقة التوافق التي تنفذ واجهة برمجة تطبيقات ترميز الصدأ أعلى التشفير_Rs كصقاف منفصلة (لا يمكن تحميلها على الصناديق). تمت كتابة طبقة التوافق في الأصل مع التأثير على أن Firefox ستحتاج إليها ، لكنها لا تستخدم حاليًا في Firefox.

تجديد الكود المولد

لتجديد الكود الذي تم إنشاؤه:

تم تثبيت Python 2.
clone https://github.com/hsivonen/encoding_c بجانب دليل encoding_rs .
clone https://github.com/hsivonen/codepage بجانب دليل encoding_rs .
clone https://github.com/whatwg/encoding بجانب دليل encoding_rs .
Checkout Revision 1d519bf8e5555cef64cf3a712485f41cd1a6a990 من ريبو encoding . (ملاحظة: كان f381389 مراجعة encoding المستخدمة من قبل تغيير ترخيص ريبو encoding .)
باستخدام دليل encoding_rs كدليل عمل ، قم بتشغيل python generate-encoding-data.py

خريطة الطريق

ملاحظات الإصدار

0.8.35

تنفيذ التغييرات لـ GB18030-2022. (عن قصد لا تعامل على أنه استراحة في الممارسة العملية حتى لو كان من الممكن القول بأنه تغيير في النظرية.)

0.8.34

استخدم ميزة portable_simd الليلية للمكتبة القياسية بدلاً من قفص packed_simd . يؤثر فقط على ميزة simd-accel الاختيارية الليلية.
تحسينات الوثائق الداخلية وتحسينات الرمز البسيط حول unsafe .
وأضاف rust-version إلى Cargo.toml .

0.8.33

استخدم packed_simd بدلاً من packed_simd_2 مرة أخرى الآن بعد أن عادت التحديثات تحت اسم packed_simd . يؤثر فقط على ميزة simd-accel الاختيارية الليلية.

0.8.32

build.rs إزالته. (يجب أن يحل هذا الإزالة إيجابيات كاذبة أبلغت عنها بعض منتجات مكافحة الفيروسات. قد يؤدي ذلك إلى كسر بعض تكوينات الإنشاء التي اختارت ضمانات Rust مقابل كسر في المستقبل.)
التغيير الداخلي لما يتم استخدام API لإعادة تفسير تكوين الممرات من ناقلات SIMD.
تحسينات الوثائق.

0.8.31

استخدم SPDX مع أقواس الآن التي تدعم Cates.io الأقواس.

0.8.30

قم بتحديث معلومات الترخيص لمراعاة تغيير ترخيص بيانات WhatWG.

0.8.29

اجعل الأجزاء التي تستخدم مخصصًا اختياريًا.

0.8.28

إصلاح الخطأ في دعم Serde تم تقديمه كجزء من دعم no_std .

0.8.27

جعل الصندوق يعمل في بيئة no_std (مع alloc ).

0.8.26

إصلاحات الإصلاح في Edition 2018 Migration التي كسرت ميزة simd-accel .

0.8.25

هل تحدد محاذاة المؤشر بطريقة لا يتم تعريف الخطوات الوسيطة على أنها سلوك غير محدد.
قم بتحديث التبعية packed_simd إلى packed_simd_2 .
قم بتحديث التبعية cfg-if إلى 1.0.
تحذيرات العنوان التي تم تقديمها بواسطة إصدارات الصدأ الأحدث على طول الطريق.
تحديث إلى الإصدار 2018 ، لأنه حتى قبل 1.0 cfg-if تم تحديثه إلى الإصدار 2018 دون استراحة Semver.

0.8.24

تجنب حساب قيمة مؤشر وسيطة (وليس غير مرغوب فيها) بطريقة مخصصة كسلوك غير محدد عند حساب محاذاة مؤشر الحوسبة.

0.8.23

إزالة سنة من إشعارات حقوق الطبع والنشر. (لا توجد ميزات أو إصلاحات الأخطاء.)

0.8.22

تنسيق الإصلاح واختبار الوحدة الجديد. (لا توجد ميزات أو إصلاحات الأخطاء.)

0.8.21

تم إصلاح الذعر مع إدخال UTF-16 غير صالح [BE | le] في نهاية الدفق.

0.8.20

Make Decoder::latin1_byte_compatible_up_to to None في المزيد من الحالات لجعل الطريقة مفيدة بالفعل. على الرغم من أنه يمكن القول إن هذا تغيير كسر بسبب تغيير الأخطاء في تغيير الدلالات ، إلا أنه لا يكسر المتصلين الذين اضطروا إلى التعامل مع حالة None بطريقة معقولة على أي حال.

0.8.19

إزالة حفنة من الشيكات المرتبطة في convert_str_to_utf16 .
تمت إضافة mem::convert_utf8_to_utf16_without_replacement .

0.8.18

تمت إضافة mem::utf8_latin1_up_to و mem::str_latin1_up_to .
تمت إضافة Decoder::latin1_byte_compatible_up_to .

0.8.17

تحديث متطلبات الإصدار bincode (DEV) إلى 1.0.

0.8.16

قم بالتبديل من صندوق simd إلى packed_simd .

0.8.15

اضبط الوثائق لـ simd-accel (إصدار README فقط).

0.8.14

صنع UTF-16 إلى تحويل ENCODE UTF-8 ملء المخزن المؤقت للإخراج بأكبر قدر ممكن.

0.8.13

جعل UTF-8 إلى وحدة فك ترميز UTF-16 قارن عدد وحدات التعليمات البرمجية المكتوبة بطول الشريحة اليمنى (شريحة الإخراج) لإصلاح الذعر الذي تم تقديمه في 0.8.11.

0.8.12

إزالة clippy:: بادئة من clippy lint أسماء.

0.8.11

تم تغيير الحد الأدنى من متطلبات الصدأ إلى 1.29.0 (لقدرة على الرجوع إلى الجزء الداخلي من static عند تحديد static آخر).
حدد بشكل صريح جداول البحث للترميزات البايت و UTF-8 لخطوط ذاكرة التخزين المؤقت على أمل تحرير خط ذاكرة التخزين المؤقت واحدة للبيانات الأخرى. (ربما كانت الجداول محاذاة بالفعل وهذا وهمي.)
تمت إضافة 32 بت من البيانات الموجهة للتشفير لكل تشفير بايت واحد. كان التغيير محايدًا للأداء بالنسبة للترميزات القديمة اللاتينية غير اللاتينية ، وتحسين Latin1-ish و Legacy Legacy سرعة الترميز إلى حد ما (السرعة الجديدة هي 2.4x السرعة القديمة للألمانية ، و 2.3X للعربية ، و 1.7x لـ Portuguese و 1.4x للفرنسية). الروسية ، 4x للعبرية).
تمت إضافة خيارات وقت الترجمة لخيارات تشفير Legacy السريع CJK (على حساب الحجم الثنائي (حتى 176 كيلو بايت) واستخدام ذاكرة وقت التشغيل). لا تزال هذه الخيارات تحتفظ ببنية الكود الكلي بدلاً من إعادة كتابة ترميز CJK تمامًا ، وبالتالي فإن السرعة ليست جيدة مثل ما يمكن تحقيقه باستخدام المزيد من الذاكرة / جعل الثنائي حتى لانجر.
جعل UTF-8 فك شفرة والتحقق بشكل أسرع.
طريقة إضافة is_single_byte() على Encoding .
تمت إضافة mem::decode_latin1() و mem::encode_latin1_lossy() .

0.8.10

تعطيل اختبار الوحدة الذي يختبر حالة الذعر عند تعطيل التأكيد الذي يتم اختباره.

0.8.9

Made-تعمل على عمل --features simd-accel مع برنامج التحويل البرمجي القناة المستقر لتبسيط نظام بناء Firefox.

0.8.8

جعل is_foo_bidi() لا يعامل u+feff (عرض الصفر لا يوجد مساحة لا تتكدس.
جعلت وظائف is_foo_bidi() تقرير true إذا كان المدخلات تحتوي على نماذج العروض التقديمية العبرية (والتي هي من اليمين إلى اليسار ولكن ليس في كتلة من اليمين إلى اليسار).

0.8.7

تم إصلاح الذعر في وحدة فك ترميز UTF-16LE/UTF-16BE عند فك تشفير UTF-8.

0.8.6

تمت إزالة تأكيد تصحيح التصحيح مؤقتًا في الإصدار 0.8.5 من convert_utf16_to_latin1_lossy .

0.8.5

إذا تم تمكين تأكيدات التصحيح ولكن لم يتم تمكين التحويلات ، فإن التحويلات المفقودة إلى LATIN1 في وحدة mem تؤكد أن الإدخال في النطاق U+0000 ... U+00FF (شامل).
في وحدة mem ، توفر تحويلات من LATIN1 و UTF-16 إلى UTF-8 والتي يمكن أن تتعامل مع مساحة الإخراج غير الكافية. تتمثل الفكرة في استخدامها أولاً مع تخصيص مستدير بحجم دلو Jemalloc والقيام بتخصيص حالة أسوأ فقط إذا كان Jemalloc rounding غير كافٍ للتخمين الأول.

0.8.4

إصلاح فساد الذاكرة الخاص بـ SSE2 الخاص بـ simd-accel ، والذي تم تقديمه في الإصدار 0.8.1 في التحويلات بين UTF-16 و LATIN1 في وحدة mem .

0.8.3

إزالة التعليق التوضيحي #[inline(never)] لم يكن مقصودًا للإفراج.

0.8.2

جعلت غير ASCII UTF-16 إلى UTF-8 تشفير بشكل أسرع عن طريق حذف الشيكات المرتبطة يدويًا وإضافة تعليقات التنبؤ الفرعي يدويًا.

0.8.1

حلقة تعديل unrolling ومحاذاة الذاكرة لتحويلات SSE2 بين UTF-16 و LATIN1 في وحدة mem لزيادة الأداء عند تحويل المخازن المؤقتة الطويلة.

0.8.0

تم تغيير الحد الأدنى للنسخة المدعومة من Rust إلى 1.21.0 (تغيير كسر Semver).
انقلبت حول الافتراضات مقابل الميزات الاختيارية للتحكم في الحجم مقابل مقايضة السرعة لـ Kanji و Hanzi Legacy Encode (تغيير كسر Semver).
وأضاف دعم النيون على ARMV7.
SIMD المعرفة X-User المحددة إلى UTF-16 Decode.
صنع UTF-16LE و UTF-16BE فك تشفير أسرع بكثير (بما في ذلك تسارع SIMD).

0.7.2

أضف وحدة mem .
رمز SIMD Refactor الذي يمكن أن يؤثر على الأداء خارج وحدة mem .

0.7.1

عند الترميز من UTF-16 غير صالح ، تعامل بشكل صحيح مع U+DC00 متبوعًا ببديلًا منخفضًا آخر.

0.7.0

جعل replacement ملصق لترميز الاستبدال. (تغيير المواصفات.)
إزالة Encoding::for_name() . ( Encoding::for_label(foo).unwrap() أصبح الآن قريب بما فيه الكفاية بعد تغيير الملصقات أعلاه.)
قم بإزالة ميزة شحن parallel-utf8 .
أضف دعم Serde &'static Encoding .
تعديلات الأداء لمعالجة ASCII.
تعديلات الأداء للتحقق من صحة UTF-8.
دعم SIMD على AARCH64.

0.6.11

جعل Encoder::has_pending_state() عام.
قم بتحديث تبعية صندوق simd إلى 0.2.0.

0.6.10

احجز مساحة كافية لـ NCRs عند الترميز إلى ISO-2022-JP.
حسابات طول الحد الأقصى الصحيح لدلالات متعددة.
يتم إجراء حسابات طول الحد الأقصى الصحيح قبل إجراء استنشاق BOM.
احسب بشكل صحيح طول الحد الأقصى عند الترميز من UTF-16 إلى GBK.

0.6.9

لا تقم بإعداد أي شيء عند فشل فك تشفير نطاق GB18030. (تغيير المواصفات.)

0.6.8

تعامل مع العلبة التي تحتويها المخزن المؤقت الأول على BOM الجزئي والمحزم التالي هو آخر المخزن المؤقت.
Decode Byte 7F بشكل صحيح في ISO-2022-JP.
اجعل UTF-16 إلى UTF-8 تشفير الكتابة أقرب إلى نهاية المخزن المؤقت.
تنفيذ Hash Encoding .

0.6.7

خريطة Half-Width Katakana إلى عرض Katana الكامل في تشفير ISO-2022-JP. (تغيير المواصفات.)
امنح إدخال الأسبقية الصحيحة على InputEmpty عند الترميز بالاستبدال وتم تمرير المخزن OutputFull للإخراج هو قصير جدًا أو أن المساحة المتبقية في المخزن المؤقت للإخراج صغير جدًا بعد الاستبدال.

0.6.6

حساب الحد الأقصى الصحيح عندما تكون بادئة BOM جزئية جزء من حالة فك الترميز.

0.6.5

حساب الحد الأقصى للطول في مختلف الترميز.
حساب الحد الأقصى للطول في وحدة فك ترميز UTF-16.
اشتق PartialEq و Eq لأنواع CoderResult و DecoderResult و EncoderResult .

0.6.4

تجنب الذعر عند الترميز بالاستبدال ، يكون المخزن المؤقت الوجهة قصيرًا جدًا بحيث لا يحمل مرجع حرف رقمي واحد.

0.6.3

أضف دعمًا للمضيفين الكبار الإينديين 32 بت. (حقيقية هذه المرة.)

0.6.2

إصلاح الذعر من التبعية مع المؤشرات السيئة في Encoder::encode_from_utf16 . (بسبب الإشراف ، كان يفتقر إلى الإصلاح الذي كان عليه Encoder::encode_from_utf8 بالفعل.)
تراكم حالة الخطأ الصغرى في حالة عدم الإبلاغ.

0.6.1

تجنب الذعر بالقرب من الفائض الصحيح في حالة من غير المرجح أن تحدث بالفعل.
العنوان Clippy للاتصالات.

0.6.0

قم بعمل طرق لحساب متطلبات حجم العازلة الأسوأ ، تحقق من الفائض الصحيح.
ترقية Rayon إلى 0.7.0.

0.5.1

إعادة ترتيب أساليب لتحسين التوثيق قابلية قراءة.
أضف دعمًا للمضيفين الكبار. (فقط 64 بت الحالة التي تم اختبارها بالفعل.)
قم بتحسين حالة ALU (غير SIMD) للذراع 32 بت بدلاً من x86_64.

0.5.0

تجنب تخصيص المخازن المؤقتة الطويلة المفرطة في فك التشفير غير المتجول.
إصلاح سلوك ISO-2022-JP وفكات الاستبدال بالقرب من نهاية المخزن المؤقت للإخراج.
توضيح بنية النتيجة مع #[must_use] .

0.4.0

تقسيم FFI إلى صندوق منفصل.
تعديلات الأداء.
CJK الحجم الثنائي وتغييرات الأداء الترميز.
موازاة التحقق من صحة UTF-8 في حالة المخازن المؤقتة الطويلة (مع ميزة اختيارية parallel-utf8 ).
الاقتراض حتى مع ISO-2022-JP عندما يكون ذلك ممكنًا.

0.3.2

إصلاح المؤشرات المتحركة للمحاذاة في تسارع ASCII القائم على ALU.
إصلاح الأخطاء في الوثائق وتحسين الوثائق.

0.3.1

إصلاح UTF-8 إلى Decode UTF-16 لتسلسل البايت بدءا من 0xee.
اجعل UTF-8 إلى UTF-8 Decode SSE2 Acecelerated عند استخدام ميزة simd-accel .
عند فك تشفير وترميز إدخال ASCII فقط من أو إلى ترميز متوافق مع ASCII باستخدام واجهة برمجة التطبيقات غير المتجول ، قم بإرجاع استعارة من الإدخال.
اجعل الترميز من UTF-16 إلى UTF-8 أسرع.

0.3

قم بتغيير الإشارات إلى مثيلات Encoding من const إلى static لجعل المراجع فريدة من نوعها عبر الصناديق التي تستخدم المراجع.
تقديم مثيلات FOO_INIT غير المطلوبة من نوعها Encoding للسماح للصناديق الأجنبية بتهيئة المصفوفات static مع الإشارات إلى مثيلات Encoding حتى في ظل قيود الصدأ التي تحظر تهيئة العناصر الصفيف &'static Encoding التي &'static Encoding statics .
توثيق أن النقطتين أعلاه سيتم العودة إذا تغير الصدأ const العمل بحيث يكون الاستخدام المتقاطع يبقي المراجع فريدة من نوعها.
إرجاع Cow من طرق عدم الإبلاغ عن الصدأ فقط للتشفير وفك الشفرة.
Encoding::for_bom() إرجاع طول BOM.
تحويلات ASCII-ACERENCED للترميزات بخلاف UTF-16LE ، UTF-16BE ، ISO-2022-JP و X-USER.
أضف تسريع SSE2 خلف علامة ميزة simd-accel . (يتطلب الصدأ الليلي.)
إصلاح الذعر مع ملصقات زائفة طويلة.
خريطة 0xca إلى u+05ba في Windows-1255. (تغيير المواصفات.)
قم بتصحيح نهاية نطاق shift_jis eudc. (تغيير المواصفات.)

0.2.4

تلميع الوثائق FFI.

0.2.3

إصلاح UTF-16 إلى UTF-8 تشفير.

0.2.2

إضافة Encoder.encode_from_utf8_to_vec_without_replacement() .

0.2.1

أضف Encoding.is_ascii_compatible() .
إضافة Encoding::for_bom() .
اجعل == Encoding استخدام اسم الاستخدام بدلاً من مقارنة المؤشر ، لأن استخدامات ثوابت الترميز في الصناديق المختلفة تؤدي إلى عناوين مختلفة ولا يمكن تحويل الثابت إلى إحصائيات دون كسر أشياء أخرى.

0.2.0

الإصدار الأولي.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع بيانات الموقع
وقت التحديث 2025-07-04
الحجم 1.34MB
من Github

تطبيقات ذات صلة

quicksync rs

2024-11-12
redis rs

2024-11-11
تطبيق سنكرس نايكي

2024-04-21
RS القيادة في العالم المفتوح

2023-06-27
لعبة درايف آر إس

2023-05-04
لعبة القيادة في العالم المفتوح RS

2023-05-04

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Twitter Sentiment Analysis on Flask App

بيانات الموقع

1.0.0
data science app road accident analysis

بيانات الموقع

1.0.0
static web apps cli

بيانات الموقع

v2.0.2
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل

encoding_rs

encoding_rs

الوظيفة

التكامل مع std::io

بيئة no_std

فك تشفير البريد الإلكتروني

تعيينات صفحة رمز Windows Mappings

تشفيرات الدوس

تحضير النص للتشفير

الترخيص

الوثائق

روابط C و C ++

عينة برامج

ميزات اختيارية

simd-accel

serde

fast-legacy-encode

fast-hangul-encode

fast-hanja-encode

fast-kanji-encode

less-slow-kanji-encode

fast-gb-hanzi-encode

less-slow-gb-hanzi-encode

fast-big5-hanzi-encode

less-slow-big5-hanzi-encode

أهداف الأداء

توافق إصدار الصدأ

التوافق مع ترميز الصدأ

تجديد الكود المولد

خريطة الطريق

ملاحظات الإصدار

0.8.35

0.8.34

0.8.33

0.8.32

0.8.31

0.8.30

0.8.29

0.8.28

0.8.27

0.8.26

0.8.25

0.8.24

0.8.23

0.8.22

0.8.21

0.8.20

0.8.19

0.8.18

0.8.17

0.8.16

0.8.15

0.8.14

0.8.13

0.8.12

0.8.11

0.8.10

0.8.9

0.8.8

0.8.7

0.8.6

0.8.5

0.8.4

0.8.3

0.8.2

0.8.1

0.8.0

0.7.2

0.7.1

0.7.0

0.6.11

0.6.10

0.6.9

0.6.8

0.6.7

0.6.6

0.6.5

0.6.4

0.6.3

0.6.2

التكامل مع `std::io`

بيئة `no_std`

`simd-accel`

`serde`

`fast-legacy-encode`

`fast-hangul-encode`

`fast-hanja-encode`

`fast-kanji-encode`

`less-slow-kanji-encode`

`fast-gb-hanzi-encode`

`less-slow-gb-hanzi-encode`

`fast-big5-hanzi-encode`

`less-slow-big5-hanzi-encode`