이것은 다음 도구와 API를 갖춘 기본 스타터 프로젝트입니다.
내가이 모든 것에 다이빙을 시작했을 때, 나는 개별 작품 중 일부를 이해하는 동안 모든 것을 응집력있는 프로젝트로 함께 조각하기가 어려웠습니다. 이 프로젝트 가이 스택으로 구축하려는 모든 사람에게 유용하고 처음에는 무언가가 필요하기를 바랍니다.
우리는 텍스트 (텍스트 파일)를 가져 와서 벡터에 포함시키고 Pinecone에 저장하는 앱을 구축하고 있으며 데이터를 의미 론적으로 검색 할 수 있습니다.
시맨틱 검색이 무엇인지 궁금한 사람이라면 다음은 개요가 있습니다 (ChatGpt4에서 직접 가져온).
시맨틱 검색은 단순히 키워드와 일치하는 대신 사용자의 의도와 검색 쿼리의 맥락 적 의미를 이해하는 검색 접근법을 나타냅니다.
자연 언어 처리 및 기계 학습을 사용하여 쿼리 뒤에 의미론 또는 의미를 해석합니다. 이로 인해보다 정확하고 관련된 검색 결과가 발생합니다. 시맨틱 검색은 사용자 의도, 쿼리 컨텍스트, 동의어 인식 및 자연어 이해를 고려할 수 있습니다. 응용 프로그램은 웹 검색 엔진에서 개인화 된 권장 시스템에 이르기까지 다양합니다.
이 섹션에서는이 앱을 배포하고 실행하는 방법을 안내해 드리겠습니다.
이 앱을 실행하려면 다음이 필요합니다.
로컬로 앱을 실행하려면 다음을 수행하십시오.
git clone [email protected]:dabit3/semantic-search-nextjs-pinecone-langchain-chatgpt.git디렉토리로 변경하고 NPM 또는 원사를 사용하여 종속성을 설치하십시오.
.example.env.local 이라는 새 파일로 .env.local 을 복사하고 API 키 및 환경으로 업데이트하십시오.
us-west4-gcp-free 와 같이 환경이 PENECONE로 제공하는 실제 환경인지 확인하십시오.
(선택 사항) - 자신의 사용자 정의 텍스트 또는 마크 다운 파일을 /documents 폴더에 추가하십시오.
앱 실행 :
npm run dev 임베딩과 인덱스를 만들 때 인덱스가 완전히 초기화하는 데 최대 2-4 분이 소요될 수 있습니다. utils 에서 인덱스가 생성 될 때까지 180 초의 설정 타임 아웃 기능이 있습니다.
초기화가 더 오래 걸리면 임베딩을 처음 만들 때 실패합니다. 이 경우 PENECONE 콘솔을 방문하여 인덱스의 상태가 완료 될 때까지 기다렸다가 기능을 다시 실행하십시오.
사전 구성된 앱 데이터는 렌즈 프로토콜 개발자 문서에 관한 것이므로 자체 데이터로 대체하지 않는 한 문제에 대한 질문 만 이해합니다. 다음은 기본 데이터로 요청할 수있는 몇 가지 질문입니다.
이 프로젝트의 기본은이 node.js 튜토리얼에 의해 안내되었으며 일부 구조 조정 및 Next.js로 포팅되었습니다. 당신은 또한 트위터에서 그들을 팔로우 할 수 있습니다!
Github Repo를 텍스트 형식으로 간단히 바꾸어 파일 및 파일 내용의 구조를 보존하여 코드베이스를 사용하여 쉽게 자르고 Pinecone으로 저장할 수있는 GPT 저장소 로더를 확인하는 것이 좋습니다.