ดาวน์โหลด faiss_vector_aggregator - faiss_vector_aggregator SORCIDE ดาวน์โหลด

faiss_vector_aggregator

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ห้องสมุดการรวมตัวของ Faiss Embeddings

ไลบรารี Python นี้มีวิธีการขั้นสูงสำหรับการรวมการฝังตัวหลายตัวที่เกี่ยวข้องกับเอกสารหรือเอนทิตีเดียวลงในการฝังตัวแทนเดียว รองรับเทคนิคการรวมที่หลากหลายตั้งแต่ค่าเฉลี่ยง่ายไปจนถึงวิธีการที่ซับซ้อนเช่น PCA และการรวมที่เอาใจใส่

สารบัญ

คุณสมบัติ
การติดตั้ง
การใช้งาน
- ตัวอย่างที่ 1: การรวมตัวเฉลี่ยอย่างง่าย
- ตัวอย่างที่ 2: การรวมตัวเฉลี่ยถ่วงน้ำหนัก
- ตัวอย่างที่ 3: การวิเคราะห์องค์ประกอบหลัก (PCA) การรวม
- ตัวอย่างที่ 4: การรวม Centroid (K-means)
- ตัวอย่างที่ 5: การรวมกลุ่มที่เอาใจใส่
วิธีการรวม
พารามิเตอร์
การพึ่งพาอาศัยกัน
การบริจาค
ใบอนุญาต

คุณสมบัติ

ค่าเฉลี่ยง่าย ๆ : คำนวณค่าเฉลี่ยเลขคณิตของการฝัง
ถ่วงน้ำหนักเฉลี่ย : คำนวณค่าเฉลี่ยถ่วงน้ำหนักของการฝัง
ค่าเฉลี่ยเรขาคณิต : คำนวณค่าเฉลี่ยเรขาคณิตข้ามการฝังตัว (สำหรับค่าบวก)
ค่าเฉลี่ยฮาร์มอนิก : คำนวณค่าเฉลี่ยฮาร์มอนิกข้าม embeddings (สำหรับค่าบวก)
Centroid (k-mean) : ใช้การจัดกลุ่ม k-mean เพื่อค้นหา centroid ของ embeddings
การวิเคราะห์องค์ประกอบหลัก (PCA) : ใช้ PCA เพื่อลดการฝังตัวลงในเวกเตอร์ตัวแทนเดียว
ค่ามัธยฐาน : คำนวณค่ามัธยฐานที่ชาญฉลาดองค์ประกอบของการฝังตัว
ค่าเฉลี่ยที่ถูกตัดแต่ง : คำนวณค่าเฉลี่ยหลังจากตัดค่าผิดปกติ
Max-Pooling : ใช้ค่าสูงสุดสำหรับแต่ละมิติข้าม EMBEDDINGS
ขั้นต่ำ : ใช้ค่าต่ำสุดสำหรับแต่ละมิติในการฝังตัว
ค่าเฉลี่ยของน้ำหนักเอนโทรปี : การฝังน้ำหนักโดยเอนโทรปี (เนื้อหาข้อมูล)
Attentive Pooling : ใช้กลไกความสนใจเพื่อเรียนรู้น้ำหนักสำหรับการรวมการฝังตัว
Tukey's Biweight : วิธีที่แข็งแกร่งในการผิดพลาดที่มีน้ำหนักลดลง
Exemplar : เลือกการฝังที่ดีที่สุดหมายถึงกลุ่มโดยลดระยะห่างเฉลี่ย

การติดตั้ง

ในการติดตั้งแพ็คเกจคุณสามารถใช้ PIP:

pip install faiss_vector_aggregator

การใช้งาน

ด้านล่างนี้เป็นตัวอย่างที่แสดงวิธีการใช้ไลบรารีเพื่อรวมการฝังตัวโดยใช้วิธีการที่แตกต่างกัน

ตัวอย่างที่ 1: การรวมตัวเฉลี่ยอย่างง่าย

สมมติว่าคุณมีคอลเลกชันของ embeddings ที่เก็บไว้ในดัชนี FAISS และคุณต้องการรวมพวกเขาด้วยรหัสเอกสารที่เกี่ยวข้องโดยใช้ค่าเฉลี่ยอย่างง่าย

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

พารามิเตอร์:
- input_folder : เส้นทางไปยังโฟลเดอร์ที่มีดัชนีอินพุต FAISS และข้อมูลเมตา
- column_name : ฟิลด์ข้อมูลเมตาที่จะรวมการฝังตัว (เช่น 'id' )
- output_folder : เส้นทางที่ดัชนี FAISS เอาท์พุทและข้อมูลเมตาจะถูกบันทึกไว้
- method="average" : ระบุวิธีการรวม

ตัวอย่างที่ 2: การรวมตัวเฉลี่ยถ่วงน้ำหนัก

หากคุณมีน้ำหนักที่แตกต่างกันสำหรับ embeddings คุณสามารถใช้ค่าเฉลี่ยถ่วงน้ำหนักเพื่อให้ความสำคัญกับการฝังตัวบางอย่าง

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

พารามิเตอร์:
- weights : รายการหรืออาร์เรย์ของน้ำหนักที่สอดคล้องกับการฝังแต่ละครั้ง
- method="weighted_average" : ระบุวิธีการถ่วงน้ำหนักโดยเฉลี่ย

ตัวอย่างที่ 3: การวิเคราะห์องค์ประกอบหลัก (PCA) การรวม

เพื่อลดการฝังตัวในมิติสูงไปยังเวกเตอร์ตัวแทนเดียวโดยใช้ PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

พารามิเตอร์:
- method="pca" : ระบุว่าควรใช้ PCA สำหรับการรวม

ตัวอย่างที่ 4: การรวม Centroid (K-means)

ใช้การจัดกลุ่ม k-mean เพื่อค้นหา centroid ของ embeddings สำหรับรหัสเอกสารแต่ละรายการ

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

พารามิเตอร์:
- method="centroid" : ระบุว่าควรใช้การจัดกลุ่ม k-means

ตัวอย่างที่ 5: การรวมกลุ่มที่เอาใจใส่

เพื่อใช้กลไกความสนใจสำหรับการรวมการฝังตัว:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

พารามิเตอร์:
- method="attentive_pooling" : ระบุวิธีการรวมที่เอาใจใส่

วิธีการรวม

ด้านล่างนี้เป็นคำอธิบายโดยละเอียดของแต่ละวิธีการรวมที่สนับสนุนโดยไลบรารี:

ค่าเฉลี่ย : คำนวณค่าเฉลี่ยเลขคณิตของการฝัง
ถ่วงน้ำหนัก _Average : คำนวณค่าเฉลี่ยถ่วงน้ำหนักของการฝังตัว ต้องการ weights
Geometric_mean : คำนวณค่าเฉลี่ยเรขาคณิตข้ามการฝังตัว สำหรับค่าบวกเท่านั้น
Harmonic_mean : คำนวณค่าเฉลี่ยฮาร์มอนิกข้าม embeddings สำหรับค่าบวกเท่านั้น
ค่ามัธยฐาน : คำนวณค่ามัธยฐานที่ชาญฉลาดองค์ประกอบของการฝังตัว
TRIMMED_MEAN : คำนวณค่าเฉลี่ยหลังจากตัดแต่งเปอร์เซ็นต์ของค่าผิดปกติ ใช้พารามิเตอร์ trim_percentage
Centroid : ใช้การจัดกลุ่ม k-mean เพื่อค้นหา centroid ของ embeddings
PCA : ใช้การวิเคราะห์ส่วนประกอบหลักในโครงการฝังตัวลงบนองค์ประกอบหลักแรก
Exemplar : เลือกการฝังที่ลดระยะห่างของโคไซน์เฉลี่ยให้กับผู้อื่น
max_pooling : ใช้ค่าสูงสุดสำหรับแต่ละมิติในการฝังตัว
MIN_POOLING : ใช้ค่าต่ำสุดสำหรับแต่ละมิติทั่ว EMBEDDINGS
Entropy_weighted_Average : การฝังน้ำหนักโดยเอนโทรปี (เนื้อหาข้อมูล)
attentive_pooling : ใช้กลไกความสนใจตามความคล้ายคลึงกันกับการรวมการฝังตัว
tukeys_biweight : วิธีการที่แข็งแกร่งในการผิดพลาดน้ำหนักลงใน embeddings

พารามิเตอร์

input_folder (STR): เส้นทางไปยังโฟลเดอร์ที่มีดัชนีอินพุต FAISS ( index.faiss ) และ metadata ( index.pkl )
column_name (str): ฟิลด์เมตาดาต้าที่รวมการฝังตัว (เช่น 'id' )
output_folder (STR): เส้นทางที่ดัชนี FAISS เอาท์พุทและข้อมูลเมตาจะถูกบันทึกไว้
method (STR): วิธีการรวมที่จะใช้ ตัวเลือกรวมถึง:
- 'average' , 'weighted_average' , 'geometric_mean' , 'harmonic_mean' , ' 'centroid' 'pca' 'trimmed_mean' 'median' ', ' 'max_pooling' 'min_pooling' , 'entropy_weighted_average' 'attentive_pooling' 'tukeys_biweight' , 'exemplar'
weights (รายการหรือ np.ndarray, ตัวเลือก): น้ำหนักสำหรับวิธีการ weighted_average
trim_percentage (ลอยตัวเป็นทางเลือก): เศษส่วนเพื่อตัดแต่งจากปลายแต่ละด้านสำหรับ trimmed_mean ควรอยู่ระหว่าง 0 ถึงน้อยกว่า 0.5
weights (รายการหรือ np.ndarray, ตัวเลือก): น้ำหนักสำหรับวิธีการ weighted_average

การพึ่งพาอาศัยกัน

ตรวจสอบให้แน่ใจว่าคุณติดตั้งแพ็คเกจต่อไปนี้:

FAISS : สำหรับการจัดการดัชนี FAISS
Numpy : สำหรับการคำนวณเชิงตัวเลข
SCIPY : สำหรับฟังก์ชั่นทางสถิติ
Scikit-Learn : สำหรับการจัดกลุ่ม PCA และ K-means
Langchain : สำหรับการจัดการร้านค้าเอกสารและร้านค้าเวกเตอร์

คุณสามารถติดตั้งการอ้างอิงโดยใช้:

pip install faiss-cpu numpy scipy scikit-learn langchain

หมายเหตุ: แทนที่ faiss-cpu ด้วย faiss-gpu หากคุณต้องการใช้ FAISS เวอร์ชัน GPU

การบริจาค

ยินดีต้อนรับ! โปรดอย่าลังเลที่จะส่งคำขอดึงหรือเปิดปัญหาเกี่ยวกับที่เก็บ GitHub

เมื่อมีส่วนร่วมโปรดตรวจสอบให้แน่ใจว่ารหัสของคุณปฏิบัติตามแนวทางต่อไปนี้:

ทำตามมาตรฐานการเข้ารหัส PEP 8
รวมเอกสารและความคิดเห็นที่จำเป็น
เขียนการทดสอบหน่วยสำหรับคุณสมบัติใหม่หรือการแก้ไขข้อบกพร่อง
อัปเดตเอกสารเพื่อสะท้อนการเปลี่ยนแปลง

ใบอนุญาต

โครงการนี้ได้รับใบอนุญาตภายใต้ใบอนุญาต MIT ดูไฟล์ใบอนุญาตสำหรับรายละเอียด

หมายเหตุเพิ่มเติม

การใช้งานกับ Langchain:
- ห้องสมุดนี้เข้ากันได้กับร้านค้าเวกเตอร์ FAISS Vector ของ Langchain ตรวจสอบให้แน่ใจว่าการฝังและดัชนีของคุณได้รับการจัดการอย่างต่อเนื่องเมื่อรวมเข้ากับ Langchain

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2025-05-27
ขนาด 9.83KB
มาจาก Github

แอปที่เกี่ยวข้อง

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
เครื่องมือวิเคราะห์ข้อมูล Lihua เวอร์ชันฟรี 3.0_search_navigation_collection_public comment_ranking_api

2022-06-28

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3
Google Dorks

ซอร์สโค้ดอื่น ๆ

1.0
shepherd

ซอร์สโค้ดอื่น ๆ

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

ซอร์สโค้ดอื่น ๆ

v1.1.0-rc-3

ข้อมูลที่เกี่ยวข้อง ทั้งหมด