Cela supprimera les données de NextJS DOC avec le dramaturge. Transformation et nettoyage des données + Ajout d'emballages pour créer des sens des données pour IA avec Cheerio. Enfin, enregistrez-le dans des fichiers séparés dans le dossier Data / NextJS.
npm run scrap
Si vous voulez des statistiques sur la mise en œuvre des données, vous pouvez exécuter cette commande
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
Cette commande fera ces actions:
La bibliothèque Tiktoken est utilisée pour transformer le texte en jetons. Nous l'utiliserons pour calculer le nombre de jetons dont nous avons besoin pour diviser le texte afin de pouvoir l'intégrer avec OpenAI.
⏳ Lien vers NPM Tiktoken / Lien vers Le Github de Tiktoken
Vous pouvez décommenter la fonction DisplayTokenLengthStats si vous souhaitez vérifier les statistiques d'envoi de jeton avant SaveTodatabase. Dans ce cas, n'oubliez pas de commenter la fonction SaveTodatabase.