Retvec عبارة عن مجزّة متجهة نصية من الجيل التالي مصمم ليكون فعالًا ومتعدد اللغات ، ويوفر مرونة مضمنة في التضمينات القوية التي تم تدريبها مع تعلم التشابه. يمكنك قراءة الورقة هنا.
تم تدريب Retvec على أن تكون مرنة ضد التلاعب على مستوى الشخصية بما في ذلك الإدراج والحذف والطبعات المطبعية والتجانس واستبدال Leet والمزيد. يتم تدريب نموذج RETVEC على الجزء العلوي من تشفير الأحرف الجديد الذي يمكن أن يشفر جميع أحرف UTF-8 والكلمات بكفاءة. وبالتالي ، يعمل Retvec خارج الصندوق على أكثر من 100 لغة دون الحاجة إلى جدول بحث أو حجم مفردات ثابتة. علاوة على ذلك ، فإن Retvec عبارة عن طبقة ، مما يعني أنه يمكن إدراجها في أي نموذج TF دون الحاجة إلى خطوة منفصلة قبل المعالجة.
إن سرعة وحجم Retvec (~ 200k بدلاً من ملايين المعلمات) تجعلها خيارًا رائعًا لحالات استخدام الويب على الجهاز. يتم دعمه أصلاً في TensorFlow Lite عبر OPS المخصصة في TensorFlow Text ، ونحن نقدم تطبيق JavaScript لـ Retvec والذي يسمح لك بنشر نماذج الويب عبر tensorflow.js.
يرجى الاطلاع على مثالنا colabs حول كيفية البدء في تدريب النماذج الخاصة بك مع Retvec. Train_retvec_model_tf.ipynb هي نقطة انطلاق رائعة لتدريب نموذج TF باستخدام Retvec.
لرؤية Retvec في العمل ، تفضل بزيارة العروض التوضيحية.
يمكنك استخدام pip لتثبيت أحدث إصدار من TensorFlow من Retvec:
pip install retvecتم اختبار Retvec على TensorFlow 2.6+ و Python 3.8+.
يمكنك استخدام RETVEC كطبقة المقياس في أي طراز TensorFlow مع سطر واحد فقط من التعليمات البرمجية. تعمل Retvec على السلاسل الأولية مع خيارات ما قبل المعالجة المدمجة (مثل النص السفلي). على سبيل المثال:
import tensorflow as tf
from tensorflow . keras import layers
# Define the input layer, which accepts raw strings
inputs = layers . Input ( shape = ( 1 , ), name = "input" , dtype = tf . string )
# Add the RETVec Tokenizer layer using the RETVec embedding model -- that's it!
x = RETVecTokenizer ( sequence_length = 128 )( inputs )
# Create your model like normal
# e.g. a simple LSTM model for classification with NUM_CLASSES classes
x = layers . Bidirectional ( layers . LSTM ( 64 , return_sequences = True ))( x )
x = layers . Bidirectional ( layers . LSTM ( 64 ))( x )
outputs = layers . Dense ( NUM_CLASSES , activation = 'softmax' )( x )
model = tf . keras . Model ( inputs , outputs )ثم يمكنك تجميع وتدريب وحفظ النموذج الخاص بك كالمعتاد! كما هو موضح في ورقتنا ، فإن النماذج المدربة باستخدام Retvec هي أكثر مرونة ضد هجمات العدوى والطبعات المطبعية ، بالإضافة إلى كفاءة حسابية. يقدم Retvec أيضًا الدعم في TFJS و TF Lite ، مما يجعله مثاليًا لحالات استخدام الأجهزة المحمولة والمواقع على الجهاز.
مثال مفصل يمكن العثور على Colabs لـ Retvec في دفاتر الملاحظات. هذه طريقة جيدة للبدء في استخدام Retvec. يمكنك تشغيل دفاتر الملاحظات في Google Colab بالنقر فوق زر Google Colab. إذا لم تكن أي من الأمثلة مشابهة لحالة الاستخدام الخاصة بك ، فيرجى إخبارنا!
لدينا المثال التالي كولابس:
يرجى الاستشهاد بهذا المرجع إذا كنت تستخدم Retvec في بحثك:
@article { retvec2023 ,
title = { RETVec: Resilient and Efficient Text Vectorizer } ,
author = { Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, and Alexey Kurakin } ,
year = { 2023 } ,
eprint = { 2302.09207 }
}للمساهمة في المشروع ، يرجى مراجعة إرشادات المساهمة. شكرًا لك!
هذا ليس منتج Google الرسمي.