ScrapEmbeddingNextjsDoc
1.0.0
這將與Playwright一起從NextJS Doc中刪除數據。數據轉換和清潔 +添加包裝器,以使IA的數據使用Cheerio。最終將其保存在數據/NextJS文件夾中的單獨文件中。
npm run scrap
如果您想要取消數據的統計數據,則可以運行此命令
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
此命令將執行此操作:
Tiktoken庫用於將文本轉換為令牌。我們將使用它來計算我們需要將文本分開的代幣數量,以便能夠將其與OpenAI嵌入。
⏳鏈接到NPM Tiktoken /留置權vers le github de tiktoken
如果要在Savetodatabase之前檢查令牌發送統計信息,則可以刪除DisplayTokenLengthstats功能。在這種情況下,不要忘記發表Savetodatabase函數。