Ini akan membatalkan data dari Doc NextJs dengan penulis drama. Transformasi dan Pembersihan Data + Menambahkan Pembungkus untuk membuat data untuk IA dengan Cheerio. Akhirnya simpan di file terpisah di folder Data/NextJS.
npm run scrap
Jika Anda ingin statistik pada data scrapping Anda dapat menjalankan perintah ini
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
Perintah ini akan melakukan tindakan ini:
Perpustakaan Tiktoken digunakan untuk mengubah teks menjadi token. Kami akan menggunakan ini untuk menghitung berapa banyak token yang kami butuhkan untuk membagi teks agar dapat menanamkannya dengan openai.
⏳ Tautan ke NPM Tiktoken / Lien vers le Github de Tiktoken
Anda dapat menghitung fungsi DisplayTokenLengthStats jika Anda ingin memeriksa statistik pengiriman token sebelum savetodatabase. Dalam hal ini, jangan lupa untuk mengomentari fungsi savetodatabase.