Esto desechará los datos del Doc NextJS con el dramaturgo. Transformación de datos y limpieza + Agregar envoltorios para hacer los datos de los datos para IA con Cheerio. Finalmente guárdelo en archivos separados en la carpeta Data/NextJS.
npm run scrap
Si desea estadísticas en datos de desguace, puede ejecutar este comando
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
Este comando hará estas acciones:
La biblioteca Tiktoken se usa para transformar el texto en tokens. Usaremos esto para calcular cuántos tokens necesitamos para dividir el texto para poder incrustarlo con OpenAI.
⏳ Enlace a NPM Tiktoken / Lien vers le Github de Tiktoken
Puede completar la función DisplayTokenLengthStats si desea verificar las estadísticas de envío del token antes de SaveTodatabase. En este caso, no olvide comentar la función SaveTodatabase.