ScrapEmbeddingNextjsDoc
1.0.0
سيؤدي ذلك إلى إلغاء البيانات من NextJS Doc مع الكاتب المسرحي. تحويل البيانات وتنظيفها + أغلفة إضافة لعمل البيانات الخاصة بـ IA مع Cheerio. أخيرًا ، احفظه في ملفات منفصلة في مجلد Data/NextJS.
npm run scrap
إذا كنت تريد إحصائيات في إلغاء البيانات ، يمكنك تشغيل هذا الأمر
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
هذا الأمر سيفعل هذا الإجراءات:
يتم استخدام مكتبة Tiktoken لتحويل النص إلى رموز. سنستخدم هذا لحساب عدد الرموز التي نحتاجها لتقسيم النص حتى نتمكن من تضمينه باستخدام Openai.
⏳ رابط لـ NPM Tiktoken / Lien vers Le Github de Tiktoken
يمكنك عدم عرض وظيفة DisplayTokenLengthStats إذا كنت ترغب في التحقق من إحصائيات إرسال الرمز المميز قبل SavetOdatabase. في هذه الحالة ، لا تنس التعليق على وظيفة savetodatabase.