تنزيل faiss_vector_aggregator - faiss_vector

faiss_vector_aggregator

شفرة المصدر الأخرى

1.0.0

تنزيل

مكتبة تجميع فايس تخصصات

توفر مكتبة Python هذه مجموعة من الأساليب المتقدمة لتجميع التضمينات المتعددة المرتبطة بمستند واحد أو كيان واحد في تضمين ممثل واحد. وهو يدعم مجموعة واسعة من تقنيات التجميع ، من المتوسط البسيط إلى الأساليب المتطورة مثل PCA وتجميع اليقظة.

جدول المحتويات

سمات
تثبيت
الاستخدام
- مثال 1: متوسط التجميع البسيط
- مثال 2: متوسط التجميع المرجح
- مثال 3: تجميع تحليل المكون الرئيسي (PCA)
- مثال 4: تجميع النقطه الوسطى (K-Means)
- مثال 5: تجميع التجميع اليقظة
طرق التجميع
حدود
التبعيات
المساهمة
رخصة

سمات

متوسط بسيط : حساب الوسط الحسابي للتضمينات.
المتوسط المرجح : حساب متوسط مرجح من التضمينات.
يعني الهندسة : حساب الوسط الهندسي عبر التضمينات (للقيم الإيجابية).
الوسط التوافقي : حساب الوسط التوافقي عبر التضمينات (للقيم الإيجابية).
Centroid (K-means) : استخدم مجموعة K-Means للعثور على النقطه الوسطى من التضمينات.
تحليل المكون الرئيسي (PCA) : استخدم PCA لتقليل التضمينات إلى متجه تمثيلي واحد.
الوسيط : حساب متوسط العنصر من التضمينات.
يعني القطع : حساب الوسط بعد تقليم القيم المتطرفة.
Max-Booling : خذ القيمة القصوى لكل بعد عبر التضمينات.
Min-Booling : خذ الحد الأدنى من القيمة لكل بعد عبر التضمينات.
المتوسط المرجح إنتروبيا : تضمينات الوزن عن طريق الانتروبيا (محتوى المعلومات).
التجميع اليقظة : استخدم آلية انتباه لتعلم الأوزان للجمع بين التضمينات.
Tukey's Biweight : طريقة قوية للقيام المتطرفة.
النموذج : حدد التضمين الذي يمثل المجموعة على أفضل وجه عن طريق تقليل متوسط المسافة.

تثبيت

لتثبيت الحزمة ، يمكنك استخدام PIP:

pip install faiss_vector_aggregator

الاستخدام

فيما يلي أمثلة توضح كيفية استخدام المكتبة لتجميع التضمينات باستخدام طرق مختلفة.

مثال 1: متوسط التجميع البسيط

لنفترض أن لديك مجموعة من التضمينات المخزنة في مؤشر FAISS ، وتريد تجميعها من خلال معرفات المستند المرتبطة بها باستخدام متوسط بسيط.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using simple averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "average"
)

حدود:
- input_folder : مسار إلى المجلد الذي يحتوي على فهرس FAISS الإدخال والبيانات الوصفية.
- column_name : حقل البيانات الوصفية التي يتم بموجبها تجميع التضمينات (على سبيل المثال ، 'id' ).
- output_folder : المسار حيث سيتم حفظ فهرس FAISS وبيانات التعريف.
- method="average" : يحدد طريقة التجميع.

مثال 2: متوسط التجميع المرجح

إذا كان لديك أوزان مختلفة للتضمينات ، فيمكنك تطبيق متوسط مرجح لإعطاء أهمية أكبر لبعض التضمينات.

 from faiss_vector_aggregator import aggregate_embeddings

# Example weights for the embeddings
weights = [ 0.1 , 0.3 , 0.6 ]

# Aggregate embeddings using weighted averaging
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "weighted_average" ,
    weights = weights
)

حدود:
- weights : قائمة أو مجموعة من الأوزان المقابلة لكل تضمين.
- method="weighted_average" : يحدد الطريقة المتوسطة المرجحة.

مثال 3: تجميع تحليل المكون الرئيسي (PCA)

لتقليل التضمينات عالية الأبعاد إلى متجه تمثيلي واحد باستخدام PCA:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using PCA
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "pca"
)

حدود:
- method="pca" : يحدد أن PCA يجب استخدامه للتجميع.

مثال 4: تجميع النقطه الوسطى (K-Means)

استخدم مجموعة K-Means للعثور على النقطه الوسطى للتضمينات لكل معرف وثيقة.

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using K-Means clustering to find the centroid
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "centroid"
)

حدود:
- method="centroid" : يحدد أنه ينبغي استخدام تجميع K-Means.

مثال 5: تجميع التجميع اليقظة

لاستخدام آلية انتباه لتجميع التضمينات:

 from faiss_vector_aggregator import aggregate_embeddings

# Aggregate embeddings using Attentive Pooling
aggregate_embeddings (
    input_folder = "data/input" ,
    column_name = "id" ,
    output_folder = "data/output" ,
    method = "attentive_pooling"
)

حدود:
- method="attentive_pooling" : يحدد طريقة التجميع اليقظة.

طرق التجميع

فيما يلي وصف مفصل لكل طريقة تجميع تدعمها المكتبة:

المتوسط : حساب الوسط الحساب للتضمينات.
Owned_average : حساب متوسط مرجح من التضمينات. يتطلب weights .
Geometric_Mean : حساب الوسط الهندسي عبر التضمينات. فقط للقيم الإيجابية.
Harmonic_mean : حساب الوسط التوافقي عبر التضمينات. فقط للقيم الإيجابية.
الوسيط : حساب متوسط العنصر من التضمينات.
trimmed_mean : حساب الوسط بعد تقليص نسبة مئوية من القيم المتطرفة. استخدم المعلمة trim_percentage .
Centroid : استخدم التجميع K-Means للعثور على النقطه الوسطى من التضمين.
PCA : استخدم تحليل المكون الرئيسي لتضمينات المشروع على المكون الرئيسي الأول.
مثال : حدد التضمين الذي يقلل من متوسط مسافة جيب التمام إلى الآخرين.
max_pooling : خذ القيمة القصوى لكل بعد عبر التضمينات.
min_pooling : خذ الحد الأدنى من القيمة لكل بعد عبر التضمينات.
Entropy_weighted_average : تم تضمينات الوزن عن طريق الانتروبيا (محتوى المعلومات).
istentive_pooling : استخدم آلية انتباه تعتمد على التشابه مع التضمينات الإجمالية.
Tukeys_biweight : طريقة قوية لضعف الأوزان في التضمينات.

حدود

input_folder (str): مسار إلى المجلد الذي يحتوي على مؤشر الإدخال Faiss ( index.faiss ) والبيانات الوصفية ( index.pkl ).
column_name (str): حقل البيانات الوصفية لتجميع التضمينات (على سبيل المثال ، 'id' ).
output_folder (str): المسار حيث سيتم حفظ فهرس FAISS وبيانات الوصفية.
method (STR): طريقة التجميع للاستخدام. تشمل الخيارات:
- 'average' ، 'weighted_average' ، 'geometric_mean' ، 'harmonic_mean' ، 'centroid' ، 'pca' ، 'median' ، " 'trimmed_mean' ، 'min_pooling' 'max_pooling' " ، "min_pooling" ، 'entropy_weighted_average' 'tukeys_biweight' ، 'exemplar' 'attentive_pooling'
weights (قائمة أو np.ndarray ، اختياري): أوزان لطريقة weighted_average .
trim_percentage (تعويم ، اختياري): الكسر لتقليص من كل نهاية لـ trimmed_mean . يجب أن يكون ما بين 0 وأقل من 0.5.
weights (قائمة أو np.ndarray ، اختياري): أوزان لطريقة weighted_average .

التبعيات

تأكد من تثبيت الحزم التالية:

FAISS : للتعامل مع فهارس FAISS.
Numpy : للحسابات العددية.
سكيبي : للوظائف الإحصائية.
Scikit-Learn : لتجميع PCA و K-Means.
Langchain : للتعامل مع متاجر المستندات ومتاجر المتجهات.

يمكنك تثبيت التبعيات باستخدام:

pip install faiss-cpu numpy scipy scikit-learn langchain

ملاحظة: استبدل faiss-cpu بـ faiss-gpu إذا كنت تفضل استخدام إصدار GPU من FAISS.

المساهمة

المساهمات مرحب بها! لا تتردد في تقديم طلب سحب أو فتح مشكلة على مستودع GitHub.

عند المساهمة ، يرجى التأكد من أن الرمز الخاص بك يلتزم بالإرشادات التالية:

اتبع معايير الترميز PEP 8.
تشمل docstrings والتعليقات عند الضرورة.
اكتب اختبارات الوحدة لميزات جديدة أو إصلاحات الأخطاء.
قم بتحديث الوثائق لتعكس التغييرات.

رخصة

هذا المشروع مرخص بموجب ترخيص معهد ماساتشوستس للتكنولوجيا. انظر ملف الترخيص للحصول على التفاصيل.

ملاحظات إضافية

الاستخدام مع Langchain:
- هذه المكتبة متوافقة مع متجر Vactor FAISS . تأكد من معالجة التضمينات والفهارس باستمرار عند الاندماج مع Langchain.

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع شفرة المصدر الأخرى
وقت التحديث 2025-05-27
الحجم 9.83KB
من Github

تطبيقات ذات صلة

OpenCore_NO_ACPI_Build

2024-11-13
nspanel_pro_tools_apk

2024-11-12
YuQue_Book_Download

2024-11-12
zkwork_aleo_gpu_worker

2024-11-11
nextcloud_share_url_downloader

2024-11-01
محرك تحليل البيانات Lihua الإصدار المجاني 3.0_search_navigation_collection_public Oplic_ranking_api

2022-06-28

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3
Google Dorks

شفرة المصدر الأخرى

1.0
shepherd

شفرة المصدر الأخرى

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

شفرة المصدر الأخرى

v1.1.0-rc-3

أخبار ذات صلة الكل

faiss_vector_aggregator