이 프로젝트는 Langchain, Openai API 및 Rag (검색된 세대) 개념을 활용하는 대화 상담원입니다. 에이전트는 긴 PDF 문서를 읽고, 텍스트, 이미지 및 테이블과 같은 다양한 구성 요소를 추출하고, 사용자와 대화하는 동안 효율적인 검색을 위해 벡터 데이터베이스에 저장하도록 설계되었습니다.
PDF 처리 : 에이전트는 긴 PDF 문서에서 정보를 구문 분석하고 추출 할 수 있습니다.
멀티 모달 추출 : 포괄적 인 이해를 위해 PDF에서 텍스트, 이미지 및 테이블을 추출합니다.
벡터 데이터베이스 : 벡터 데이터베이스를 사용하여 정보를 효율적으로 저장하고 검색합니다.
대화 AI : Rag 개념을 구현하여 사용자와의 대화 상호 작용을 향상시킵니다.
구조화되지 않은 문서 (PDF)의 이미지, 텍스트 및 테이블을 구조화하기 위해 구조화됩니다.
크로마가있는 다중 벡터 리트리버를 사용하여 원시 텍스트와 이미지를 검색하기위한 요약과 함께 저장합니다.
이미지 요약 (검색)과 이미지 및 텍스트 (또는 표)의 최종 답변 합성에 GPT-4V를 사용할 것입니다.
Langchain <- Langchain 설치를 이해하려면 여기를 방문하십시오
OpenAi API <- OpenAI API 설정 및 사용을위한 지침.
Chroma DB <- 벡터 데이터베이스 설정 및 사용을위한 지침.
소스 PDF에 대한 경로를 제공하십시오
필요에 따라 Prompt_Text를 변경하십시오.
쿼리 라인에서 질문을 교체하십시오.
에이전트는 지능형 응답을 위해 저장된 정보를 사용합니다.
검색
검색은 텍스트 청크뿐만 아니라 이미지 요약과 유사성에 따라 수행됩니다. 경쟁 텍스트 청크가 있으면 이미지 검색이 실패 할 수 있으므로 신중한 고려가 필요합니다. 이를 완화하기 위해 더 큰 (4K 토큰) 텍스트 청크를 생성하고 검색을 위해 요약합니다.
이미지 크기
답변의 품질은 예상대로 이미지 크기에 민감한 것으로 보입니다. 나는 이것을 더 신중하게 테스트하기 위해 곧 EVAL을 할 것입니다.
이 프로젝트는 MIT 라이센스에 따라 라이센스가 부여됩니다.