vector io Download - vector io Source Source Download

ไลบรารีนี้ใช้รูปแบบสากลสำหรับชุดข้อมูลเวกเตอร์เพื่อส่งออกและนำเข้าข้อมูลจากฐานข้อมูลเวกเตอร์ทั้งหมดได้อย่างง่ายดาย

ขอการสนับสนุนสำหรับ vectordb โดยการลงคะแนน/แสดงความคิดเห็นในแบบสำรวจนี้

ดูส่วนที่มีส่วนร่วมเพื่อเพิ่มการสนับสนุนสำหรับฐานข้อมูลเวกเตอร์ที่คุณชื่นชอบ

ฐานข้อมูลเวกเตอร์ที่รองรับ

สนับสนุนอย่างเต็มที่

ฐานข้อมูลเวกเตอร์	นำเข้า	ส่งออก
Pinecone
qdrant
Milvus
การค้นหาเวกเตอร์ AI Vertex AI
kdb.ai
lancedb
DataStax Astra db
โครมา
เทอร์โพลเทอร์

บางส่วน

ฐานข้อมูลเวกเตอร์	นำเข้า	ส่งออก

ระหว่างดำเนินการ

ฐานข้อมูลเวกเตอร์	นำเข้า	ส่งออก
Azure AI Search
ทอผ้า
MongoDB Atlas
เปิดการวิจัย
Apache Cassandra
txtai
pgvector
SQLITE-VSS

ไม่รองรับ

ฐานข้อมูลเวกเตอร์	นำเข้า	ส่งออก
เวสป้า
Marqo
Elasticsearch
Redis Search
บ้านคลิก
USEARCH
ชุดหิน
Epsilla
Activeloop Deep Lake
aperturedb
cratedb
Meilisearch
MyScale
neo4j
นิวเคลียส DB
oramasearch
พิมพ์ดีด
anari ai
วัลด์
Apache Solr

การติดตั้ง

ใช้ PIP

pip install vdf-io

จากแหล่งกำเนิด

git clone https://github.com/AI-Northstar-Tech/vector-io.git
cd vector-io
pip install -r requirements.txt

ข้อมูลจำเพาะรูปแบบชุดข้อมูล Vector Universal Vector (VDF)

vdf_meta.json: มันเป็นไฟล์ JSON ที่มีสคีมาต่อไปนี้ VDFMETA ที่กำหนดไว้ใน SRC/VDF_IO/META_TYPES.PY:

 class NamespaceMeta ( BaseModel ):
    namespace : str
    index_name : str
    total_vector_count : int
    exported_vector_count : int
    dimensions : int
    model_name : str | None = None
    vector_columns : List [ str ] = [ "vector" ]
    data_path : str
    metric : str | None = None
    index_config : Optional [ Dict [ Any , Any ]] = None
    schema_dict : Optional [ Dict [ str , Any ]] = None


class VDFMeta ( BaseModel ):
    version : str
    file_structure : List [ str ]
    author : str
    exported_from : str
    indexes : Dict [ str , List [ NamespaceMeta ]]
    exported_at : str
    id_column : Optional [ str ] = None

ไฟล์/โฟลเดอร์ Parquet สำหรับข้อมูลเมตาและเวกเตอร์

สคริปต์ส่งออก

export_vdf --help
usage: export_vdf [-h] [-m MODEL_NAME]
                  [--max_file_size MAX_FILE_SIZE]
                  [--push_to_hub | --no-push_to_hub]
                  [--public | --no-public]
                  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
                  ...

Export data from various vector databases to the VDF format for vector datasets

options:
  -h, --help            show this help message and exit
  -m MODEL_NAME, --model_name MODEL_NAME
                        Name of model used
  --max_file_size MAX_FILE_SIZE
                        Maximum file size in MB (default:
                        1024)
  --push_to_hub, --no-push_to_hub
                        Push to hub
  --public, --no-public
                        Make dataset public (default:
                        False)

Vector Databases:
  Choose the vectors database to export data from

  {pinecone,qdrant,kdbai,milvus,vertexai_vectorsearch}
    pinecone            Export data from Pinecone
    qdrant              Export data from Qdrant
    kdbai               Export data from KDB.AI
    milvus              Export data from Milvus
    vertexai_vectorsearch
                        Export data from Vertex AI Vector
                        Search

นำเข้าสคริปต์

import_vdf --help
usage: import_vdf [-h] [-d DIR] [-s | --subset | --no-subset]
                  [--create_new | --no-create_new]
                  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
                  ...

Import data from VDF to a vector database

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory to import
  -s, --subset, --no-subset
                        Import a subset of data (default: False)
  --create_new, --no-create_new
                        Create a new index (default: False)

Vector Databases:
  Choose the vectors database to export data from

  {milvus,pinecone,qdrant,vertexai_vectorsearch,kdbai}
    milvus              Import data to Milvus
    pinecone            Import data to Pinecone
    qdrant              Import data to Qdrant
    vertexai_vectorsearch
                        Import data to Vertex AI Vector Search
    kdbai               Import data to KDB.AI

สคริปต์ที่ฝังตัวใหม่

สคริปต์ Python นี้ใช้เพื่อฝังชุดข้อมูลเวกเตอร์อีกครั้ง ต้องใช้ไดเรกทอรีของชุดข้อมูลเวกเตอร์ในรูปแบบ VDF และฝังซ้ำโดยใช้โมเดลใหม่ สคริปต์ยังอนุญาตให้คุณระบุชื่อของคอลัมน์ที่มีข้อความที่จะฝัง

reembed_vdf --help
usage: reembed_vdf [-h] -d DIR [-m NEW_MODEL_NAME]
                  [-t TEXT_COLUMN]

Reembed a vector dataset

options:
  -h, --help            show this help message and exit
  -d DIR, --dir DIR     Directory of vector dataset in
                        the VDF format
  -m NEW_MODEL_NAME, --new_model_name NEW_MODEL_NAME
                        Name of new model to be used
  -t TEXT_COLUMN, --text_column TEXT_COLUMN
                        Name of the column containing
                        text to be embedded

ตัวอย่าง

export_vdf -m hkunlp/instructor-xl --push_to_hub pinecone --environment gcp-starter

import_vdf -d /path/to/vdf/dataset milvus

reembed_vdf -d /path/to/vdf/dataset -m sentence-transformers/all-MiniLM-L6-v2 -t title

ทำตามพรอมต์เพื่อเลือกช่วงดัชนีและช่วง ID เพื่อส่งออก

การบริจาค

การเพิ่มฐานข้อมูลเวกเตอร์ใหม่

หากคุณต้องการเพิ่มการนำเข้า/ส่งออกสำหรับฐานข้อมูลเวกเตอร์ใหม่คุณต้องใช้ด้านอื่น ๆ ของการนำเข้า/ส่งออกสำหรับฐานข้อมูลเดียวกัน กรุณาแยก repo และส่ง PR สำหรับทั้งสคริปต์นำเข้าและส่งออก

ขั้นตอนในการเพิ่มฐานข้อมูลเวกเตอร์ใหม่ (ABC):

เพิ่มชื่อฐานข้อมูลของคุณใน src/vdf_io/names.py ในคลาส dbnames enum
สร้างไฟล์ใหม่ src/vdf_io/export_vdf/export_abc.py และ src/vdf_io/import_vdf/import_abc.py สำหรับ db ใหม่

ส่งออก :

ในไฟล์ส่งออกของคุณกำหนดการส่งออกคลาสซึ่งสืบทอดมาจาก ExportVDF
ระบุ db_name_slug สำหรับคลาส
ชั้นเรียนควรใช้:
1. ฟังก์ชั่น Make_Parser () เพื่อเพิ่มอาร์กิวเมนต์เฉพาะฐานข้อมูลไปยัง Export_VDF CLI
2. ฟังก์ชั่น export_vdb () เพื่อแจ้งให้ผู้ใช้สำหรับข้อมูลที่ไม่ได้ให้ไว้ใน CLI ควรเรียกใช้ฟังก์ชัน get_data ()
3. ฟังก์ชั่น get_data () เพื่อดาวน์โหลดคะแนน (ในลักษณะแบทช์) กับข้อมูลเมตาทั้งหมดจากดัชนีที่ระบุของฐานข้อมูลเวกเตอร์ ข้อมูลนี้ควรเก็บไว้ในชุดไฟล์/โฟลเดอร์ Parquet ข้อมูลเมตาควรเก็บไว้ในไฟล์ JSON พร้อมสคีมาด้านบน
ใช้สคริปต์เพื่อส่งออกข้อมูลจากดัชนีตัวอย่างของฐานข้อมูลเวกเตอร์และตรวจสอบว่าข้อมูลถูกส่งออกอย่างถูกต้อง

นำเข้า :

ในไฟล์นำเข้าของคุณกำหนดคลาส importAbc ซึ่งสืบทอดมาจาก importVDF
ระบุ db_name_slug สำหรับคลาส
ชั้นเรียนควรใช้:
1. ฟังก์ชั่น Make_Parser () เพื่อเพิ่มอาร์กิวเมนต์เฉพาะฐานข้อมูลไปยัง INTER_VDF CLI เช่น URL ของฐานข้อมูลโทเค็นการตรวจสอบความถูกต้อง ฯลฯ
2. import_vdb () ฟังก์ชั่นเพื่อให้ผู้ใช้สำหรับข้อมูลที่ไม่ได้ให้ไว้ใน CLI ควรเรียกใช้ฟังก์ชัน UPSERT_DATA ()
3. ฟังก์ชั่น UPSERT_DATA () เพื่ออัปโหลดจุดจากชุดข้อมูล VDF (ในลักษณะแบตช์) พร้อมกับข้อมูลเมตาทั้งหมดไปยังดัชนีที่ระบุของฐานข้อมูลเวกเตอร์ ข้อมูลเมตาทั้งหมดเกี่ยวกับชุดข้อมูลควรอ่านจากไฟล์ vdf_meta.json ในโฟลเดอร์ VDF
ใช้สคริปต์เพื่อนำเข้าข้อมูลจากชุดข้อมูล VDF ตัวอย่างที่ส่งออกในขั้นตอนก่อนหน้าและตรวจสอบว่าข้อมูลถูกนำเข้าอย่างถูกต้อง

การเปลี่ยนข้อกำหนด VDF

หากคุณต้องการเปลี่ยนข้อกำหนด VDF โปรดเปิดปัญหาเพื่อหารือเกี่ยวกับการเปลี่ยนแปลงก่อนที่จะส่ง PR

การปรับปรุงประสิทธิภาพ

หากคุณต้องการปรับปรุงประสิทธิภาพของสคริปต์นำเข้า/ส่งออกโปรดแยก repo และส่ง PR

telemetry

การเรียกใช้สคริปต์ใน repo จะส่งข้อมูลการใช้งานที่ไม่ระบุชื่อไปยัง AI Northstar Tech เพื่อช่วยปรับปรุงห้องสมุด

คุณสามารถเลือกใช้สิ่งนี้ได้โดยการตั้งค่าตัวแปรสภาพแวดล้อม DISABLE_TELEMETRY_VECTORIO เป็น 1

คำถาม

หากคุณมีคำถามใด ๆ โปรดเปิดปัญหาเกี่ยวกับ repo หรือข้อความ Dhruv Anand บน LinkedIn

ผู้มีส่วนร่วม

_{Dhruv Anand}
-

_{Jayesh Rathi}

_{Jordan Totten}

ขยาย

vector io

ฐานข้อมูลเวกเตอร์ที่รองรับ

การติดตั้ง

ใช้ PIP

จากแหล่งกำเนิด

ข้อมูลจำเพาะรูปแบบชุดข้อมูล Vector Universal Vector (VDF)

สคริปต์ส่งออก

นำเข้าสคริปต์

สคริปต์ที่ฝังตัวใหม่

ตัวอย่าง

การบริจาค

การเพิ่มฐานข้อมูลเวกเตอร์ใหม่

การเปลี่ยนข้อกำหนด VDF

การปรับปรุงประสิทธิภาพ

telemetry

คำถาม

ผู้มีส่วนร่วม

Stick War io เวอร์ชันล่าสุด (Stick War io)

เกมพังค์ไอโอ

เกม io ของรัฐ

โบอาส ไอโอ งู

เกมเก็บเกี่ยว io

สึนามิ

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express