تتيح قاعدة بيانات المتجه البحث وفهرسة تشابه فعال للبيانات ذات الأبعاد عالية. تعد قواعد بيانات المتجهات مفيدة بشكل خاص لتطبيقات التعلم الآلي ، حيث يتم تمثيل نقاط البيانات غالبًا كناقلات عالية الأبعاد. تتيح قواعد البيانات هذه للمستخدمين إجراء عمليات تفتيش التشابه بناءً على تضمينات نقاط البيانات ، مما يسهل العثور على المعلومات ذات الصلة بناءً على المحتوى أو الميزات.
في مشروع الامتحانات هذا ، استخدمت Weaviate كقاعدة بيانات متجه وتكاملها مع Openai's Embedder ( text-embedding-ada-002-v2 ) لإنشاء وحفظ المتجهات لمجموعة البيانات. كمجموعة مثال على البيانات ، قمت بتخليص جميع combinator من موقع الويب الخاص بهم (4000 شركة) وأنشأت ناقلات من نقطة بيانات المفتاح (انظر /examples/y-combinator/schema.json y-combinator/schema.json لمزيد من التفاصيل). لقد قمت أيضًا بتحميل مجموعة البيانات إلى Kaggle.
على سبيل المثال ، قمت بتنزيل مجموعة بيانات Lord of the Rings من Kaggle ، التي أنشأها بول موني.
قم بإنشاء ملف .env في دليل الجذر وأضف المتغيرات: OpenAI_APIKEY و DATA_PATH. يجب أن يكون متغير Data_Path هو المسار إلى دليل البيانات:
OPENAI_APIKEY=XXXXXXXXXXXXXXXXX
DATA_PATH=C:Usersyour-user-namepathtoprojectdata
لاستخدام هذا الرمز ، ستحتاج إلى تثبيت التبعيات باستخدام:
npm install
لاستخدام قاعدة البيانات ، ستحتاج إلى إعداد مثيل Docker في قاعدة البيانات.
docker-compose up -d --build
ملء قاعدة بيانات Weaviate (تأكد من تشغيل Docker). يمكنك استخدام إحدى مجموعات بيانات المثال المقدمة في دليل /examples (حاليًا y-combinator و lotr-character ).
سيقوم تشغيل populate بإنشاء قاعدة بيانات weaviate مع البيانات من مجموعة بيانات المثال (وإزالة أي بيانات موجودة مع نفس الفئة). لقد دفعت ~ 0.20 دولار في Openai Usage لملء مجموعة بيانات Y Combinator
npm run populate --dataset=<example-name>
إذا نجحت ، يمكنك بسهولة عرض بياناتك والاستعلام عنها عبر واجهة برمجة تطبيقات GraphQL. يمكنك استخدام صندوق رمل Apollo GraphQL لاستكشاف البيانات وتشغيل الاستعلامات. ما عليك سوى إدخال عنوان URL الرسم البياني ( http://localhost:8080/v1/graphql ).
إذا كنت ترغب في الحصول على بعض المرح الإضافي ، فيمكنك استخدام جهاز العرض التضمين لـ TensorFlow لتصور بياناتك. للحصول على ملفات .tsv المطلوبة ، استخدم الأمر التالي (سيضعها داخل مجلد /example/<example-name> ):
npm run tsv --dataset=<example-name>
يمكن تحميلها على موقع الويب لتصور بياناتك.
لإنشاء بياناتك الخاصة ، اتبع الأمثلة:
/examples باسم مجموعة البيانات الخاصة بك.schema.json في جذر مجلد مجموعة البيانات. يجب أن يحتوي هذا الملف على مخطط بياناتك.data.json في جذر مجلد مجموعة البيانات. يجب أن يحتوي هذا الملف على بيانات مجموعة البيانات الخاصة بك.npm run populate --dataset=<your-dataset-name> لملء قاعدة البيانات باستخدام بياناتك.