تنزيل VectorETL - تنزيل رمز المصدر VectorETL

Vectoretl: إطار عمل ETL خفيف الوزن لقواعد بيانات المتجهات

VectorETL حسب بيانات السياق هو إطار معياري مصمم للمساعدة في معالجة البيانات ومهندسي AI لتطبيقات الذكاء الاصطناعى في بضع دقائق فقط!

يقوم VectorETL بتبسيط عملية تحويل مصادر البيانات المتنوعة إلى تضمينات متجه وتخزينها في قواعد بيانات ناقلات مختلفة. وهو يدعم مصادر بيانات متعددة (قواعد البيانات ، وتخزين السحابة ، والملفات المحلية) ، ونماذج التضمين المختلفة (بما في ذلك Openai و Cohere و Google Gemini) ، والعديد من أهداف قاعدة بيانات المتجهات (مثل Pinecone و Qdrant و Weaviate).

يهدف خط الأنابيب هذا إلى تبسيط إنشاء وإدارة أنظمة البحث في المتجهات ، وتمكين المطورين وعلماء البيانات من بناء وتوسيع نطاق التطبيقات التي تتطلب البحث الدلالي أو أنظمة التوصية أو العمليات الأخرى المستندة إلى المتجهات.

سمات

بنية معيارية بدعم لمصادر البيانات المتعددة ، ونماذج التضمين ، وقواعد بيانات المتجهات
معالجة الدُفعات للتعامل الفعال لمجموعات البيانات الكبيرة
التثبيت القابل للتكوين والتداخل للبيانات النصية
سهولة التكامل لمصادر البيانات الجديدة ، ونماذج التضمين ، وقواعد بيانات المتجهات

الوثائق

VectorETL End-to-End Flow

جدول المحتوى

تثبيت
الاستخدام
نظرة عامة على المشروع
إعدادات
- تكوين المصدر
- استخدام غير منظم لمعالجة الملفات المصدر
- تكوين التضمين
- التكوين الهدف
المساهمة
أمثلة
الوثائق

1. التثبيت

pip install --upgrade vector-etl

أو

pip install git+https://github.com/ContextData/VectorETL.git

2. الاستخدام

يوفر هذا القسم إرشادات حول كيفية استخدام إطار ETL لقواعد بيانات المتجهات. سنقوم بتغطية التشغيل والتحقق من التكوينات وتقديم بعض أمثلة الاستخدام الشائعة.

الخيار 1: استيراد VectorETL في تطبيق Python الخاص بك (باستخدام ملف تكوين YAML)

على افتراض أن لديك ملف تكوين مشابه للملف أدناه.

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

يمكنك بعد ذلك استيراد التكوين إلى مشروع Python الخاص بك وتشغيله تلقائيًا من هناك

 from vector_etl import create_flow

flow = create_flow ()
flow . load_yaml ( '/path/to/your/config.yaml' )
flow . execute ()

الخيار 2: التشغيل من سطر الأوامر باستخدام ملف التكوين

باستخدام نفس ملف تكوين YAML من الخيار 2 أعلاه ، يمكنك تشغيل العملية مباشرة من سطر الأوامر الخاص بك دون الحاجة إلى استيراده إلى تطبيق Python.

لتشغيل إطار ETL ، استخدم الأمر التالي:

vector-etl -c /path/to/your/config.yaml

الخيار 3: استيراد VectorETL في تطبيق Python الخاص بك

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

flow = create_flow ()
flow . set_source ( source )
flow . set_embedding ( embedding )
flow . set_target ( target )
flow . set_embed_columns ( embed_columns )

# Execute the flow
flow . execute ()

أمثلة الاستخدام الشائعة

فيما يلي بعض الأمثلة على كيفية استخدام إطار ETL لسيناريوهات مختلفة:

1. معالجة البيانات من قاعدة بيانات postgreSQL إلى pinecone

vector-etl -c config/postgres_to_pinecone.yaml

حيث قد يبدو postgres_to_pinecone.yaml :

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " customer_data "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM customers WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : ${OPENAI_API_KEY}
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : ${PINECONE_API_KEY}
  index_name : " customer-embeddings "
  dimension : 1536
  metric : " cosine "

embed_columns :
  - " customer_name "
  - " customer_description "
  - " purchase_history "

2. معالجة ملفات CSV من S3 إلى QDrant

vector-etl -c config/s3_to_qdrant.yaml

حيث قد يبدو s3_to_qdrant.yaml :

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-data-bucket "
  prefix : " customer_data/ "
  file_type : " csv "
  aws_access_key_id : ${AWS_ACCESS_KEY_ID}
  aws_secret_access_key : ${AWS_SECRET_ACCESS_KEY}
  chunk_size : 1000
  chunk_overlap : 200

embedding :
  embedding_model : " Cohere "
  api_key : ${COHERE_API_KEY}
  model_name : " embed-english-v2.0 "

target :
  target_database : " Qdrant "
  qdrant_url : " https://your-qdrant-cluster-url.qdrant.io "
  qdrant_api_key : ${QDRANT_API_KEY}
  collection_name : " customer_embeddings "

embed_columns : []

3. نظرة عامة على المشروع

يعد إطار عمل VectorETL (المستخلص ، التحويل ، التحميل) أداة قوية ومرنة مصممة لتبسيط عملية استخراج البيانات من مصادر مختلفة ، وتحويلها إلى ضمانات متجه ، وتحميل هذه التضمين في مجموعة من قواعد بيانات المتجهات.

إنه مبني مع النموذج ، وقابلية التوسع ، وسهولة الاستخدام في الاعتبار ، مما يجعله حلاً مثاليًا للمؤسسات التي تتطلع إلى الاستفادة من قوة البحث في المتجهات في البنية التحتية للبيانات.

الجوانب الرئيسية:

استخراج البيانات متعددة الاستخدامات : يدعم الإطار مجموعة واسعة من مصادر البيانات ، بما في ذلك قواعد البيانات التقليدية ، وحلول التخزين السحابية (مثل Amazon S3 و Google Cloud Storage) ، ومنصات SaaS الشهيرة (مثل Stripe و Zendesk). يتيح لك هذا التعدد استخدام البيانات من مصادر متعددة في قاعدة بيانات متجه موحدة.
معالجة النصوص المتقدمة : بالنسبة للبيانات النصية ، يقوم الإطار بتنفيذ تقنيات متطورة ومتداخلة. هذا يضمن الحفاظ على السياق الدلالي للنص عند إنشاء تضمينات متجه ، مما يؤدي إلى نتائج بحث أكثر دقة.
نماذج التضمين الحديثة : يتكامل النظام مع نماذج التضمين الرائدة ، بما في ذلك Openai و Cohere و Google Gemini و Azure Openai. يتيح لك ذلك اختيار نموذج التضمين الذي يناسب حالة الاستخدام المحددة ومتطلبات الجودة.
دعم قاعدة بيانات المتجهات المتعددة : سواء كنت تستخدم Pinecone أو Qdrant أو Weaviate أو Singlestore أو supabase أو locentb ، فقد غطي هذا الإطار. إنه مصمم للتفاعل بسلاسة مع قواعد بيانات المتجهات الشهيرة هذه ، مما يتيح لك اختيار القاعدة التي تناسب احتياجاتك.
قابلة للتكوين وقابلة للتكوين : الإطار بأكمله قابل للتكوين بشكل كبير من خلال ملفات تكوين YAML أو JSON. علاوة على ذلك ، فإن بنيةها المعيارية تجعل من السهل تمديد مصادر البيانات الجديدة أو نماذج تضمين أو قواعد بيانات المتجهات مع تطور احتياجاتك.

يعد إطار ETL هذا مثاليًا للمؤسسات التي تتطلع إلى تنفيذ أو ترقية قدرات البحث في المتجهات.

من خلال أتمتة عملية استخراج البيانات ، وإنشاء تضمينات متجه ، وتخزينها في قاعدة بيانات المتجهات ، فإن هذا الإطار يقلل بشكل كبير من الوقت والتعقيد الذي ينطوي عليه إنشاء نظام بحث متجه. يتيح لعلماء البيانات والمهندسين التركيز على استخلاص الأفكار وبناء التطبيقات ، بدلاً من القلق بشأن تعقيدات معالجة البيانات وتخزين المتجهات.

4. التكوين

يستخدم إطار ETL ملف تكوين لتحديد تفاصيل المصدر ، ونموذج التضمين ، وقاعدة البيانات الهدف ، وغيرها من المعلمات. يمكنك استخدام تنسيق YAML أو JSON لملف التكوين.

بنية ملف التكوين

يتم تقسيم ملف التكوين إلى ثلاثة أقسام رئيسية:

source : يحدد تفاصيل مصدر البيانات
embedding : يحدد نموذج التضمين المراد استخدامه
target : يحدد قاعدة بيانات المتجه الهدف
embed_columns : يحدد الأعمدة التي يجب تضمينها (بشكل أساسي لمصادر البيانات المنظمة)

مثال تكوينات

استيراد Vectoretl إلى تطبيق Python الخاص بك

 from vector_etl import create_flow

source = {
    "source_data_type" : "database" ,
    "db_type" : "postgres" ,
    "host" : "localhost" ,
    "port" : "5432" ,
    "database_name" : "test" ,
    "username" : "user" ,
    "password" : "password" ,
    "query" : "select * from test" ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0 ,
}

embedding = {
    "embedding_model" : "OpenAI" ,
    "api_key" : ${ OPENAI_API_KEY },
    "model_name" : "text-embedding-ada-002"
}

target = {
    "target_database" : "Pinecone" ,
    "pinecone_api_key" : ${ PINECONE_API_KEY },
    "index_name" : "my-pinecone-index" ,
    "dimension" : 1536
}

embed_columns = [ "customer_name" , "customer_description" , "purchase_history" ]

تكوين ملف yaml المستقل (على سبيل المثال config.yaml)

 source :
  source_data_type : " database "
  db_type : " postgres "
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

embedding :
  embedding_model : " OpenAI "
  api_key : " your-openai-api-key "
  model_name : " text-embedding-ada-002 "

target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

تكوين ملف JSON المستقل (على سبيل المثال config.json)

{
  "source" : {
    "source_data_type" : " database " ,
    "db_type" : " postgres " ,
    "host" : " localhost " ,
    "database_name" : " mydb " ,
    "username" : " user " ,
    "password" : " password " ,
    "port" : 5432 ,
    "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
    "batch_size" : 1000 ,
    "chunk_size" : 1000 ,
    "chunk_overlap" : 0
  },

  "embedding" : {
    "embedding_model" : " OpenAI " ,
    "api_key" : " your-openai-api-key " ,
    "model_name" : " text-embedding-ada-002 "
  },

  "target" : {
    "target_database" : " Pinecone " ,
    "pinecone_api_key" : " your-pinecone-api-key " ,
    "index_name" : " my-index " ,
    "dimension" : 1536 ,
    "metric" : " cosine " ,
    "cloud" : " aws " ,
    "region" : " us-west-2 "
  },

  "embed_columns" : [ " column1 " , " column2 " , " column3 " ]
}

موضح أقسام التكوين

تكوين المصدر

يختلف قسم source بناءً على source_data_type . فيما يلي أمثلة لأنواع المصادر المختلفة:

مصدر قاعدة البيانات

{
  "source_data_type" : " database " ,
  "db_type" : " postgres " ,  # or "mysql", "snowflake", "salesforce"
  "host" : " localhost " ,
  "database_name" : " mydb " ,
  "username" : " user " ,
  "password" : " password " ,
  "port" : 5432 ,
  "query" : " SELECT * FROM mytable WHERE updated_at > :last_updated_at " ,
  "batch_size" : 1000 ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " database "
  db_type : " postgres "  # or "mysql", "snowflake", "salesforce"
  host : " localhost "
  database_name : " mydb "
  username : " user "
  password : " password "
  port : 5432
  query : " SELECT * FROM mytable WHERE updated_at > :last_updated_at "
  batch_size : 1000
  chunk_size : 1000
  chunk_overlap : 0

مصدر S3

{
  "source_data_type" : " Amazon S3 " ,
  "bucket_name" : " my-bucket " ,
  "key" : " path/to/files/ " ,
  "file_type" : " .csv " ,
  "aws_access_key_id" : " your-access-key " ,
  "aws_secret_access_key" : " your-secret-key "
}

 source :
  source_data_type : " Amazon S3 "
  bucket_name : " my-bucket "
  key : " path/to/files/ "
  file_type : " .csv "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-key "

المصدر من Google Cloud Storage (GCS)

{
  "source_data_type" : " Google Cloud Storage " ,
  "credentials_path" : " /path/to/your/credentials.json " ,
  "bucket_name" : " myBucket " ,
  "prefix" : " prefix/ " ,
  "file_type" : " csv " ,
  "chunk_size" : 1000 ,
  "chunk_overlap" : 0
}

 source :
  source_data_type : " Google Cloud Storage "
  credentials_path : " /path/to/your/credentials.json "
  bucket_name : " myBucket "
  prefix : " prefix/ "
  file_type : " csv "
  chunk_size : 1000
  chunk_overlap : 0

استخدام غير منظم لمعالجة الملفات المصدر

بدءًا من الإصدار 0.1.6.3 ، يمكن للمستخدمين الآن الاستفادة من واجهة برمجة تطبيقات Unsstractless بدون هيكل لاستخراج البيانات بكفاءة من العديد من المصادر القائمة على الملفات.

ملاحظة: يقتصر هذا على واجهة برمجة التطبيقات غير المهيكلة بلا منظمة ويجب عدم استخدامها في إطار المصدر المفتوح غير المنظم

يقتصر هذا على ملفات [PDF ، DOCX ، DOC ، TXT]

من أجل استخدام غير منظم ، ستحتاج إلى ثلاثة معلمات إضافية

use_unstructured : (صحيح/خطأ) مؤشر يخبر الإطار باستخدام واجهة برمجة التطبيقات غير المنظمة
unstructured_api_key : أدخل مفتاح واجهة برمجة التطبيقات غير المهيكلة الخاصة بك
unstructured_url : أدخل عنوان URL الخاص بـ API من لوحة القيادة غير المهيكلة الخاصة بك

 # Example using Local file
source :
  source_data_type : " Local File "
  file_path : " /path/to/file.docx "
  file_type : " docx "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

# Example using Amazon S3
source :
  source_data_type : " Amazon S3 "
  bucket_name : " myBucket "
  prefix : " Dir/Subdir/ "
  file_type : " pdf "
  aws_access_key_id : " your-access-key "
  aws_secret_access_key : " your-secret-access-key "
  use_unstructured : True
  unstructured_api_key : ' my-unstructured-key '
  unstructured_url : ' https://my-domain.api.unstructuredapp.io '

تكوين التضمين

يحدد قسم embedding نموذج التضمين الذي يجب استخدامه:

 embedding :
  embedding_model : " OpenAI "  # or "Cohere", "Google Gemini", "Azure OpenAI", "Hugging Face"
  api_key : " your-api-key "
  model_name : " text-embedding-ada-002 "  # model name varies by provider

التكوين الهدف

يختلف القسم target بناءً على قاعدة بيانات المتجه المختار. إليك مثال على Pinecone:

 target :
  target_database : " Pinecone "
  pinecone_api_key : " your-pinecone-api-key "
  index_name : " my-index "
  dimension : 1536
  metric : " cosine "
  cloud : " aws "
  region : " us-west-2 "

أعمدة التضمين

تحدد قائمة embed_columns الأعمدة من البيانات المصدر التي يجب استخدامها لإنشاء التضمينات (ينطبق فقط على مصادر قاعدة البيانات في الوقت الحالي):

 embed_columns :
  - " column1 "
  - " column2 "
  - " column3 "

قائمة embed_columns مطلوبة فقط لمصادر البيانات المنظمة (على سبيل المثال postgresql ، mysql ، ندفة الثلج). لجميع المصادر الأخرى ، استخدم قائمة فارغة

 embed_columns : []

التعامل مع المعلومات الحساسة

لحماية المعلومات الحساسة مثل مفاتيح API وكلمات المرور ، فكر في استخدام متغيرات البيئة أو نظام إدارة الأسرار الآمن. يمكنك بعد ذلك الرجوع إلى هذه في ملف التكوين الخاص بك:

 embedding :
  api_key : ${OPENAI_API_KEY}

يتيح لك ذلك الحفاظ على ملفات التكوين الخاصة بك في التحكم في الإصدار دون فضح البيانات الحساسة.

تذكر ضبط التكوين الخاص بك استنادًا إلى مصادر البيانات المحددة ، ونماذج التضمين ، وقواعد البيانات المستهدفة. ارجع إلى وثائق كل خدمة للتأكد من أنك تقدم جميع المعلمات المطلوبة.

5. المساهمة

نرحب بالمساهمات في إطار ETL لقواعد بيانات المتجهات! سواء كنت تقوم بإصلاح الأخطاء أو تحسين الوثائق أو اقتراح ميزات جديدة ، فسيتم تقدير جهودك. إليك كيف يمكنك المساهمة:

الإبلاغ عن القضايا

إذا واجهت خطأ أو لديك اقتراح لتحسين إطار ETL:

تحقق من مشكلات github لمعرفة ما إذا كان قد تم بالفعل الإبلاغ عن المشكلة أو الاقتراح.
إذا لم يكن كذلك ، افتح مشكلة جديدة. قدم عنوانًا ووصفًا واضحين ، وأكبر قدر ممكن من المعلومات ذات الصلة ، بما في ذلك:
- خطوات لإعادة إنتاج (للحشرات)
- السلوك المتوقع
- السلوك الفعلي
- نظام التشغيل الخاص بك وإصدار بيثون
- الأجزاء ذات الصلة من ملف التكوين الخاص بك (تذكر إزالة المعلومات الحساسة)

اقتراح تحسينات

نحن نبحث دائمًا عن طرق لجعل إطار ETL أفضل. إذا كان لديك أفكار:

افتح قضية جديدة على جيثب.
استخدم عنوانًا واضحًا وصفيًا.
تقديم وصف مفصل للتعزيز المقترح.
اشرح لماذا سيكون هذا التحسين مفيدًا لمعظم المستخدمين.

طلبات سحب

نرحب بنشاط بطلبات السحب الخاصة بك:

شوكة الريبو وإنشاء فرعك من main .
إذا قمت بإضافة رمز يجب اختباره ، أضف الاختبارات.
إذا قمت بتغيير واجهات برمجة التطبيقات ، فقم بتحديث الوثائق.
تأكد من تمريرات جناح الاختبار.
تأكد من أن الكود الخاص بك يتبع اتفاقيات النمط الحالية (انظر معايير الترميز أدناه).
إصدار طلب السحب!

معايير الترميز

للحفاظ على الاتساق خلال المشروع ، يرجى الالتزام بمعايير الترميز هذه:

اتبع دليل نمط PEP 8 لرمز Python.
استخدم أسماء متغيرة ذات معنى وأضف التعليقات عند الضرورة.
اكتب docstrings لجميع الوظائف والفئات والوحدات النمطية.
الحفاظ على وظائف صغيرة وتركز على مهمة واحدة.
استخدم تلميحات النوع لتحسين قابلية قراءة التعليمات البرمجية والتقاط الأخطاء المحتملة المتعلقة بالنوع.

الوثائق

يحسن تقدير الوثائق دائمًا:

إذا وجدت خطأً مطبعية أو خطأ في الوثائق ، فلا تتردد في إرسال طلب سحب باستخدام التصحيح.
للحصول على تغييرات كبيرة في الوثائق ، يرجى فتح مشكلة أولاً لمناقشة التغييرات المقترحة.

إضافة ميزات جديدة

إذا كنت تفكر في إضافة ميزة جديدة:

افتح مشكلة لمناقشة الميزة قبل بدء التطوير.
لمصادر البيانات الجديدة:
- أضف ملفًا جديدًا في دليل source_mods .
- تنفيذ الأساليب اللازمة على النحو المحدد في الفئة الأساسية.
- قم بتحديث وظيفة get_source_class في source_mods/__init__.py .
لنماذج التضمين الجديدة:
- إضافة ملف جديد في دليل embedding_mods .
- تنفيذ الأساليب اللازمة على النحو المحدد في الفئة الأساسية.
- قم بتحديث وظيفة get_embedding_model في embedding_mods/__init__.py .
لقواعد بيانات ناقلات جديدة:
- أضف ملفًا جديدًا في دليل target_mods .
- تنفيذ الأساليب اللازمة على النحو المحدد في الفئة الأساسية.
- قم بتحديث وظيفة get_target_database في target_mods/__init__.py .

الاختبار

اكتب اختبارات الوحدة لميزات جديدة أو إصلاحات الأخطاء.
تأكد من تمرير جميع الاختبارات قبل تقديم طلب سحب.
تهدف إلى تغطية اختبار عالية ، وخاصة بالنسبة للأجزاء الحرجة من قاعدة الكود.

ارتكاب الرسائل

استخدم رسائل التزام واضحة وذات مغزى.
ابدأ رسالة الالتزام بملخص قصير (ما يصل إلى 50 حرفًا).
إذا لزم الأمر ، قدم تفسيرات أكثر تفصيلاً في الخطوط اللاحقة.

عملية المراجعة

تتطلب جميع التقديمات ، بما في ذلك التقديمات التي قدمها أعضاء المشروع ، مراجعة.
نستخدم طلبات سحب GitHub لهذا الغرض.
قد يطلب المراجعون التغييرات قبل دمج طلب السحب.

المجتمع (خلاف)

نشجع جميع المستخدمين على الانضمام إلى خادم Discord الخاص بنا للتعاون مع فريق تطوير بيانات السياق وغيره من المساهمين من أجل اقتراح ترقيات وتكاملات وقضايا جديدة.

يوسع