Descargar ScrapEmbeddingNextjsDoc - Descargar el código fuente ScrapEmbeddingNextjsDoc

ScrapEmbeddingNextjsDoc

Otro código fuente

1.0.0

Descargar

NextJS DOC RAPER

Datos de desecho del Doc NextJS:

Esto desechará los datos del Doc NextJS con el dramaturgo. Transformación de datos y limpieza + Agregar envoltorios para hacer los datos de los datos para IA con Cheerio. Finalmente guárdelo en archivos separados en la carpeta Data/NextJS.

 npm run scrap

Enlace al dramaturgo

Enlace a NPM Cheerio

Estadísticas de desecho:

Si desea estadísticas en datos de desguace, puede ejecutar este comando

  npm run scrapstat

Crear base de datos para los datos de incrustación de almacenamiento:

En neon.tech crea una base de datos (neón porque es compatible con los datos vectoriales) y crea una colección para almacenar los datos.
Agregue la cadena de conexión en database_url en .env. Asegúrese de completar el nombre de usuario y reemplazar ******* por contraseña
Crear tablas con el comando sql en database.sql

 DROP SCHEMA public CASCADE;

CREATE SCHEMA public ;

CREATE EXTENSION IF NOT EXISTS vector;

CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));

CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);

CREATE TABLE IF NOT EXISTS openai_ft_data (
  id SERIAL PRIMARY KEY ,
  query TEXT NOT NULL ,
  answer TEXT NOT NULL ,
  suggested_answer TEXT ,
  user_feedback BOOLEAN
);

CREATE TABLE IF NOT EXISTS usage (
  id SERIAL PRIMARY KEY ,
  ip_address TEXT NOT NULL ,
  created_at TIMESTAMP NOT NULL DEFAULT NOW()
);

Enlace a neón

Clave OpenAI:

Agregue la tecla OpenAI en .env para usar la API para incorporar los datos.

Enlace OpenAi

INCREGAR DATAS:

 npm run embedding

Este comando hará estas acciones:

Cree la matriz de objetos con textos y nombre de archivo y guárdelo en un archivo json (texts.json)
Tokenize todos los textos con Tiktoken para conocer el número de token y guardarlo en un archivo JSON (TextStokens.json)
Divida los textos en tokens máximo 1500. Si divide, diviértase de acuerdo con los subtítulos (etiqueta H2) y guárdelo en un archivo json (textStokenssplited.json)
Incrustar todos los textos divididos con texto incrustado-3-Small desde OpenAI y guárdelo en un archivo JSON (TextStokenssplitedEmbedding.json)
Guardar los datos de incrustación en la base de datos

La biblioteca Tiktoken se usa para transformar el texto en tokens. Usaremos esto para calcular cuántos tokens necesitamos para dividir el texto para poder incrustarlo con OpenAI.

⏳ Enlace a NPM Tiktoken / Lien vers le Github de Tiktoken

Puede completar la función DisplayTokenLengthStats si desea verificar las estadísticas de envío del token antes de SaveTodatabase. En este caso, no olvide comentar la función SaveTodatabase.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-30
tamaño 19.46KB
Proviene de Github

Aplicaciones relacionadas

Google Dorks

2025-03-10
shepherd

2025-06-04
mongo express

2025-06-04
hidusbf

2025-02-14
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo