ScrapEmbeddingNextjsDoc
1.0.0
สิ่งนี้จะทำให้ข้อมูลจากเอกสาร NextJS กับนักเขียนบทละคร การแปลงข้อมูลและการทำความสะอาด + การเพิ่ม wrappers เพื่อให้เข้าใจถึงข้อมูลสำหรับ IA ด้วย Cheerio ในที่สุดบันทึกไว้ในไฟล์แยกต่างหากในโฟลเดอร์ Data/NextJS
npm run scrap
หากคุณต้องการสถิติในการทิ้งข้อมูลคุณสามารถเรียกใช้คำสั่งนี้ได้
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
คำสั่งนี้จะดำเนินการนี้:
Tiktoken Library ใช้เพื่อแปลงข้อความเป็นโทเค็น เราจะใช้สิ่งนี้เพื่อคำนวณจำนวนโทเค็นที่เราต้องแยกข้อความเพื่อให้สามารถฝังด้วย openai
⏳ลิงค์ไปยัง npm tiktoken / lien vers le github de tiktoken
คุณสามารถยกเลิกการแสดงผล DisplayTokenLengthStats ได้หากคุณต้องการตรวจสอบโทเค็นที่ส่งสถิติก่อน Savetodatabase ในกรณีนี้อย่าลืมแสดงความคิดเห็นฟังก์ชั่น savetodatabase