ScrapEmbeddingNextjsDoc
1.0.0
이것은 Playwright와 Nextjs Doc의 데이터를 폐기합니다. 데이터 변환 및 청소 + 랩퍼 추가하여 Cheerio와 함께 IA의 데이터를 감지합니다. 마지막으로 Data/Nextjs 폴더의 별도 파일로 저장하십시오.
npm run scrap
스크래핑 데이터에 통계를 원한다면이 명령을 실행할 수 있습니다.
npm run scrapstat
DROP SCHEMA public CASCADE;
CREATE SCHEMA public ;
CREATE EXTENSION IF NOT EXISTS vector;
CREATE TABLE IF NOT EXISTS documents ( text text , n_tokens integer , file_path text , embeddings vector( 1536 ));
CREATE INDEX ON documents USING ivfflat (embeddings vector_cosine_ops);
CREATE TABLE IF NOT EXISTS openai_ft_data (
id SERIAL PRIMARY KEY ,
query TEXT NOT NULL ,
answer TEXT NOT NULL ,
suggested_answer TEXT ,
user_feedback BOOLEAN
);
CREATE TABLE IF NOT EXISTS usage (
id SERIAL PRIMARY KEY ,
ip_address TEXT NOT NULL ,
created_at TIMESTAMP NOT NULL DEFAULT NOW()
); npm run embedding
이 명령은이 작업을 수행합니다.
Tiktoken 라이브러리는 텍스트를 토큰으로 변환하는 데 사용됩니다. OpenAI로 텍스트를 포함시키기 위해 텍스트를 분할 해야하는 토큰의 수를 계산하기 위해 이것을 사용합니다.
npm tiktoken / lien vers le github de tiktoken 링크
Savetodatabase 전에 토큰 전송 통계를 확인하려면 displayTokenLengthstats 기능을 수행 할 수 있습니다. 이 경우 Savetodatabase 기능을 주석하는 것을 잊지 마십시오.