ScrapEmbeddingNextjsDoc
1.0.0
これにより、NextJS DocのデータがPlaywrightを使用します。データ変換とクリーニング +ラッパーを追加して、Cheerioを使用したIAのデータのセンスを作成します。最後に、データ/nextjsフォルダーの個別のファイルに保存します。
npm run scrap
スクラップデータの統計が必要な場合は、このコマンドを実行できます
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
このコマンドはこのアクションを実行します。
Tiktokenライブラリは、テキストをトークンに変換するために使用されます。これを使用して、OpenAIに埋め込むためにテキストを分割する必要があるトークンの数を計算します。
npm tiktoken / lien Vers le github de tiktokenへのリンク
savetodatabaseの前にトークン送信統計を確認する場合は、displaytokenlengthstatsの機能を解除できます。この場合、savetodatabase関数をコメントすることを忘れないでください。