ScrapEmbeddingNextjsDoc
1.0.0
这将与Playwright一起从NextJS Doc中删除数据。数据转换和清洁 +添加包装器,以使IA的数据使用Cheerio。最终将其保存在数据/NextJS文件夹中的单独文件中。
npm run scrap
如果您想要取消数据的统计数据,则可以运行此命令
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
此命令将执行此操作:
Tiktoken库用于将文本转换为令牌。我们将使用它来计算我们需要将文本分开的代币数量,以便能够将其与OpenAI嵌入。
⏳链接到NPM Tiktoken /留置权vers le github de tiktoken
如果要在Savetodatabase之前检查令牌发送统计信息,则可以删除DisplayTokenLengthstats功能。在这种情况下,不要忘记发表Savetodatabase函数。