RetveC เป็นเวกเตอร์ข้อความรุ่นต่อไปที่ออกแบบมาให้มีประสิทธิภาพพูดได้หลายภาษาและให้ความยืดหยุ่นในตัวในตัวโดยใช้การฝังคำที่มีประสิทธิภาพที่ได้รับการฝึกฝนด้วยการเรียนรู้ที่คล้ายคลึงกัน คุณสามารถอ่านกระดาษได้ที่นี่
RetveC ได้รับการฝึกฝนให้มีความยืดหยุ่นต่อการจัดการระดับตัวละครรวมถึงการแทรกการลบการพิมพ์ผิด homoglyphs การทดแทน Leet และอื่น ๆ โมเดล RETVEC ได้รับการฝึกฝนบนตัวเข้ารหัสอักขระใหม่ซึ่งสามารถเข้ารหัสอักขระและคำทั้งหมดและคำทั้งหมดได้อย่างมีประสิทธิภาพ ดังนั้น RetVec จึงทำงานนอกกรอบมากกว่า 100 ภาษาโดยไม่จำเป็นต้องใช้ตารางการค้นหาหรือขนาดคำศัพท์คงที่ นอกจากนี้ RetVec เป็นเลเยอร์ซึ่งหมายความว่าสามารถแทรกลงในโมเดล TF ใด ๆ โดยไม่จำเป็นต้องใช้ขั้นตอนการประมวลผลล่วงหน้าแยกต่างหาก
ความเร็วและขนาดของ Retvec (~ 200k แทนพารามิเตอร์นับล้าน) ยังทำให้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับกรณีการใช้งานบนอุปกรณ์และการใช้เว็บ ได้รับการสนับสนุนอย่างเป็นทางการใน TensorFlow Lite ผ่านทาง OPS ที่กำหนดเองในข้อความ TensorFlow และเราให้การใช้งาน JavaScript ของ RetVEC ซึ่งช่วยให้คุณสามารถปรับใช้เว็บโมเดลผ่าน TensorFlow.js
โปรดดูตัวอย่าง colabs ของเราเกี่ยวกับวิธีเริ่มต้นด้วยการฝึกอบรมโมเดลของคุณเองด้วย retvec TRAIN_RETVEC_MODEL_TF.IPYNB เป็นจุดเริ่มต้นที่ยอดเยี่ยมสำหรับการฝึกอบรมแบบจำลอง TF โดยใช้ RETVEC
หากต้องการดู Retvec ในการดำเนินการเยี่ยมชมการสาธิตของเรา
คุณสามารถใช้ pip เพื่อติดตั้ง TensorFlow เวอร์ชันล่าสุดของ RETVEC:
pip install retvecRetveC ได้รับการทดสอบใน TensorFlow 2.6+ และ Python 3.8+
คุณสามารถใช้ RETVEC เป็นเลเยอร์ Vectorization ในรุ่น tensorflow ใด ๆ ที่มีรหัสบรรทัดเดียว RetveC ดำเนินการกับสตริงดิบพร้อมตัวเลือกการประมวลผลล่วงหน้าในตัว (เช่นข้อความลดลง) ตัวอย่างเช่น:
import tensorflow as tf
from tensorflow . keras import layers
# Define the input layer, which accepts raw strings
inputs = layers . Input ( shape = ( 1 , ), name = "input" , dtype = tf . string )
# Add the RETVec Tokenizer layer using the RETVec embedding model -- that's it!
x = RETVecTokenizer ( sequence_length = 128 )( inputs )
# Create your model like normal
# e.g. a simple LSTM model for classification with NUM_CLASSES classes
x = layers . Bidirectional ( layers . LSTM ( 64 , return_sequences = True ))( x )
x = layers . Bidirectional ( layers . LSTM ( 64 ))( x )
outputs = layers . Dense ( NUM_CLASSES , activation = 'softmax' )( x )
model = tf . keras . Model ( inputs , outputs )จากนั้นคุณสามารถรวบรวมฝึกอบรมและบันทึกโมเดลของคุณได้ตามปกติ! ดังที่แสดงในบทความของเราแบบจำลองที่ได้รับการฝึกฝนโดยใช้ RETVEC มีความยืดหยุ่นมากขึ้นต่อการโจมตีและการพิมพ์ผิดพลาดรวมถึงการคำนวณที่มีประสิทธิภาพ RetveC ยังให้การสนับสนุนใน TFJS และ TF Lite ทำให้เหมาะสำหรับเคสมือถือและใช้เว็บในอุปกรณ์
ตัวอย่างรายละเอียด colabs สำหรับ retvec สามารถดูได้ที่ภายใต้สมุดบันทึก นี่เป็นวิธีที่ดีในการเริ่มต้นด้วยการใช้ RetVec คุณสามารถเรียกใช้สมุดบันทึกใน Google Colab ได้โดยคลิกที่ปุ่ม Google Colab หากไม่มีตัวอย่างใดที่คล้ายกับกรณีการใช้งานของคุณโปรดแจ้งให้เราทราบ!
เรามีตัวอย่างต่อไปนี้:
โปรดอ้างอิงการอ้างอิงนี้หากคุณใช้ RetVEC ในการวิจัยของคุณ:
@article { retvec2023 ,
title = { RETVec: Resilient and Efficient Text Vectorizer } ,
author = { Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, and Alexey Kurakin } ,
year = { 2023 } ,
eprint = { 2302.09207 }
}หากต้องการมีส่วนร่วมในโครงการโปรดตรวจสอบแนวทางการบริจาค ขอบคุณ!
นี่ไม่ใช่ผลิตภัณฑ์ของ Google อย่างเป็นทางการ