문서에 대한 시맨틱 검색을위한 PDF와 챗봇 (Streamlit, Langchain, Pinecone/Chroma/Azure Cognitive Search를 사용하여 빌드)
이 저장소에는 문서를 통해 시맨틱 검색을위한 대화식 챗봇을 작성하는 방법에 대한 코드 예제가 포함되어 있습니다. 챗봇을 통해 사용자는 자연어 질문을하고 문서 모음에서 관련 답변을 얻을 수 있습니다. 챗봇은 웹 및 챗봇 인터페이스, Langchain 용 Streamlit을 사용하고 Pinecone, Chroma 및 Azure Cognitive Search의 벡터 검색과 같은 다양한 유형의 벡터 데이터베이스를 활용하여 효율적이고 정확한 유사성 검색을 수행합니다. 이 코드는 파이썬으로 작성되었으며 다양한 사용 사례 및 데이터 소스에 맞게 쉽게 수정할 수 있습니다.
자세한 내용은 자세한 내용을 공유하려면 Medium (Smallit and Vector Database : Semantic 검색을위한 대화 형 웹 앱 생성 안내서)에서 내 이야기를 확인하십시오.
- preprocess_pinecone.ipynb <- Azure OpenAi 서비스의 임베딩 모델을 사용하여 문서에서 컨텐츠를 포함시키고 Pinecone 벡터 데이터베이스에 저장하는 예입니다.
- preprocess_chroma.ipynb <- Azure OpenAI Service의 임베딩 모델을 사용하여 문서에서 컨텐츠를 포함시키고 Chroma 벡터 데이터베이스에 저장하는 예입니다.
- preprocess_acs.ipynb <- Azure OpenAI Service의 임베딩 모델을 사용하여 문서에서 컨텐츠를 포함시키고 Azure Cognitive Search Vector 데이터베이스에 저장하는 예입니다.
- COUME_PINECONE.IPYNB <- Langchain Question-Answering 모듈을 사용하여 Pinecone Vector 데이터베이스에서 유사성 검색을 수행하고 GPT-3.5 (Text-DavInciic003)를 사용하여 결과를 요약하는 예입니다.
- COUME_CHROMA.IPYNB <-Langchain Question-Answering 모듈을 사용하여 Chroma 벡터 데이터베이스에서 유사성 검색을 수행하고 GPT-3.5 (Text-DavInciic003)를 사용하여 결과를 요약하는 예입니다.
- COUME_ACS.IPYNB <- Langchain Question-Answering 모듈을 사용하여 Azure Cognitive Search Vector 데이터베이스에서 유사성 검색을 수행하고 GPT-3.5 (Text-DavInciic003)를 사용하여 결과를 요약하는 예입니다.
- APP_PINECONE.PY <- 간소성, Langchain 및 Pinecone Vector 데이터베이스를 사용하여 대화식 챗봇을 구축하여 문서를 통해 시맨틱 검색을 용이하게합니다. 결과 요약 및 채팅을 위해 Azure Openai Service의 GPT-3.5-Turbo 모델을 사용합니다.
- APP_CHROMA.PY <- 간소성, Langchain 및 Chroma Vector 데이터베이스를 사용하여 대화 형 챗봇을 구축하여 문서에 대한 시맨틱 검색을 용이하게합니다. 결과 요약 및 채팅을 위해 Azure Openai Service의 GPT-3.5-Turbo 모델을 사용합니다.
- app_acs.py <- 간소성, langchain 및 azure cognitive search 벡터 데이터베이스를 사용하여 대화식 챗봇을 구축하여 문서에 대한 시맨틱 검색을 용이하게합니다. 결과 요약 및 채팅을 위해 Azure Openai Service의 GPT-3.5-Turbo 모델을 사용합니다.
이 유선형 웹 앱을 실행하려면
streamlit run app_pinecone.py
문서 데모에 대한이 시맨틱 검색의 고급 아키텍처 및 흐름 
즐기다!