Isso descartará os dados do NextJS Doc com dramaturgo. Transformação e limpeza de dados + Adicionando invólucros para criar os dados do IA com Cheerio. Finalmente, salve -o em arquivos separados na pasta Data/NextJS.
npm run scrap
Se você deseja estatísticas sobre dados de dados, você pode executar este comando
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
Este comando fará as seguintes ações:
A Biblioteca Tiktoken é usada para transformar o texto em tokens. Usaremos isso para calcular quantos tokens precisamos dividir o texto para poder incorporá -lo ao OpenAI.
⏳ Link para NPM Tiktoken / Lien Vers Le Github de Tiktoken
Você pode não declarar a função DisplayTokenLengthStats se desejar verificar as estatísticas de envio do token antes do SaveTodatabase. Nesse caso, não se esqueça de comentar a função SaveTodatabase.