retvec Download - retvec Source Source Download

retvec

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

retvec: vectorizer ข้อความที่ยืดหยุ่นและมีประสิทธิภาพ

ภาพรวม

RetveC เป็นเวกเตอร์ข้อความรุ่นต่อไปที่ออกแบบมาให้มีประสิทธิภาพพูดได้หลายภาษาและให้ความยืดหยุ่นในตัวในตัวโดยใช้การฝังคำที่มีประสิทธิภาพที่ได้รับการฝึกฝนด้วยการเรียนรู้ที่คล้ายคลึงกัน คุณสามารถอ่านกระดาษได้ที่นี่

RetveC ได้รับการฝึกฝนให้มีความยืดหยุ่นต่อการจัดการระดับตัวละครรวมถึงการแทรกการลบการพิมพ์ผิด homoglyphs การทดแทน Leet และอื่น ๆ โมเดล RETVEC ได้รับการฝึกฝนบนตัวเข้ารหัสอักขระใหม่ซึ่งสามารถเข้ารหัสอักขระและคำทั้งหมดและคำทั้งหมดได้อย่างมีประสิทธิภาพ ดังนั้น RetVec จึงทำงานนอกกรอบมากกว่า 100 ภาษาโดยไม่จำเป็นต้องใช้ตารางการค้นหาหรือขนาดคำศัพท์คงที่ นอกจากนี้ RetVec เป็นเลเยอร์ซึ่งหมายความว่าสามารถแทรกลงในโมเดล TF ใด ๆ โดยไม่จำเป็นต้องใช้ขั้นตอนการประมวลผลล่วงหน้าแยกต่างหาก

ความเร็วและขนาดของ Retvec (~ 200k แทนพารามิเตอร์นับล้าน) ยังทำให้เป็นตัวเลือกที่ยอดเยี่ยมสำหรับกรณีการใช้งานบนอุปกรณ์และการใช้เว็บ ได้รับการสนับสนุนอย่างเป็นทางการใน TensorFlow Lite ผ่านทาง OPS ที่กำหนดเองในข้อความ TensorFlow และเราให้การใช้งาน JavaScript ของ RetVEC ซึ่งช่วยให้คุณสามารถปรับใช้เว็บโมเดลผ่าน TensorFlow.js

โปรดดูตัวอย่าง colabs ของเราเกี่ยวกับวิธีเริ่มต้นด้วยการฝึกอบรมโมเดลของคุณเองด้วย retvec TRAIN_RETVEC_MODEL_TF.IPYNB เป็นจุดเริ่มต้นที่ยอดเยี่ยมสำหรับการฝึกอบรมแบบจำลอง TF โดยใช้ RETVEC

การสาธิต

หากต้องการดู Retvec ในการดำเนินการเยี่ยมชมการสาธิตของเรา

เริ่มต้น

การติดตั้ง

คุณสามารถใช้ pip เพื่อติดตั้ง TensorFlow เวอร์ชันล่าสุดของ RETVEC:

 pip install retvec

RetveC ได้รับการทดสอบใน TensorFlow 2.6+ และ Python 3.8+

การใช้งานขั้นพื้นฐาน

คุณสามารถใช้ RETVEC เป็นเลเยอร์ Vectorization ในรุ่น tensorflow ใด ๆ ที่มีรหัสบรรทัดเดียว RetveC ดำเนินการกับสตริงดิบพร้อมตัวเลือกการประมวลผลล่วงหน้าในตัว (เช่นข้อความลดลง) ตัวอย่างเช่น:

 import tensorflow as tf
from tensorflow . keras import layers

# Define the input layer, which accepts raw strings
inputs = layers . Input ( shape = ( 1 , ), name = "input" , dtype = tf . string )

# Add the RETVec Tokenizer layer using the RETVec embedding model -- that's it!
x = RETVecTokenizer ( sequence_length = 128 )( inputs )

# Create your model like normal
# e.g. a simple LSTM model for classification with NUM_CLASSES classes
x = layers . Bidirectional ( layers . LSTM ( 64 , return_sequences = True ))( x )
x = layers . Bidirectional ( layers . LSTM ( 64 ))( x )
outputs = layers . Dense ( NUM_CLASSES , activation = 'softmax' )( x )
model = tf . keras . Model ( inputs , outputs )

จากนั้นคุณสามารถรวบรวมฝึกอบรมและบันทึกโมเดลของคุณได้ตามปกติ! ดังที่แสดงในบทความของเราแบบจำลองที่ได้รับการฝึกฝนโดยใช้ RETVEC มีความยืดหยุ่นมากขึ้นต่อการโจมตีและการพิมพ์ผิดพลาดรวมถึงการคำนวณที่มีประสิทธิภาพ RetveC ยังให้การสนับสนุนใน TFJS และ TF Lite ทำให้เหมาะสำหรับเคสมือถือและใช้เว็บในอุปกรณ์

ลูกปลา

ตัวอย่างรายละเอียด colabs สำหรับ retvec สามารถดูได้ที่ภายใต้สมุดบันทึก นี่เป็นวิธีที่ดีในการเริ่มต้นด้วยการใช้ RetVec คุณสามารถเรียกใช้สมุดบันทึกใน Google Colab ได้โดยคลิกที่ปุ่ม Google Colab หากไม่มีตัวอย่างใดที่คล้ายกับกรณีการใช้งานของคุณโปรดแจ้งให้เราทราบ!

เรามีตัวอย่างต่อไปนี้:

การฝึกอบรมแบบจำลองที่ใช้ RetveC โดยใช้ TensorFlow: TRAIN_RETVEC_MODEL_TF.IPYNB สำหรับการฝึกอบรม GPU/CPU และ TRAIN_TPU.IPYNB สำหรับตัวอย่างการฝึกอบรมที่เข้ากันได้กับ TPU
การแปลงโมเดล retvec เป็นรุ่น tf lite เพื่อทำงานบนอุปกรณ์: tf_lite_retvec.ipynb
(เร็ว ๆ นี้!) ใช้ retvec js เพื่อปรับใช้โมเดล retvec ในเว็บโดยใช้ tensorflow.js

การอ้าง

โปรดอ้างอิงการอ้างอิงนี้หากคุณใช้ RetVEC ในการวิจัยของคุณ:

 @article { retvec2023 ,
    title = { RETVec: Resilient and Efficient Text Vectorizer } ,
    author = { Elie Bursztein, Marina Zhang, Owen Vallis, Xinyu Jia, and Alexey Kurakin } ,
    year = { 2023 } ,
    eprint = { 2302.09207 }
}