
qdurllm의 흐름도
QDURLLM ( QD RANT URL S 및 L ARGE L Anguage M Odels)은 URL 컨텐츠를 벡터 데이터베이스에 선택하고 업로드 할 수있는 로컬 검색 엔진입니다. 그 후이 컨텐츠를 검색, 검색 및 채팅 할 수 있습니다.
이것은 Qdrant, Langchain, Llama.cpp, 양자화 된 젬마 및 Gradio를 활용하여 다중 컨테이너 Docker 응용 프로그램을 통해 제공됩니다.
Huggingface의 데모 공간으로 가십시오.
유일한 요구 사항은 docker 와 docker-compose 갖는 것입니다.
가지고 있지 않으면 여기에 설치하십시오.
Github 저장소를 복제하여 응용 프로그램을 설치할 수 있습니다.
git clone https://github.com/AstraBert/qdurllm.git
cd qdurllm 또는 다음 텍스트를 compose.yaml 파일에 붙여 넣을 수 있습니다.
networks :
mynet :
driver : bridge
services :
local-search-application :
image : astrabert/local-search-application
networks :
- mynet
ports :
- " 7860:7860 "
qdrant :
image : qdrant/qdrant
ports :
- " 6333:6333 "
volumes :
- " ./qdrant_storage:/qdrant/storage "
networks :
- mynet
llama_server :
image : astrabert/llama.cpp-gemma
ports :
- " 8000:8000 "
networks :
- mynet파일 시스템에 원하는 디렉토리에 파일을 배치합니다.
응용 프로그램을 실행하기 전에 Docker Hub에서 필요한 모든 이미지를 선택적으로 가져올 수 있습니다.
docker pull qdrant/qdrant
docker pull astrabert/llama.cpp-gemma
docker pull astrabert/local-search-application출시되면 (사용법 참조) 응용 프로그램은 3 개의 컨테이너를 실행합니다.
qdrant (포트 6333) : 시맨틱 검색 기반 검색을위한 벡터 데이터베이스 제공 업체 역할을합니다.llama.cpp-gemma (포트 8000) : LMstudio와 Google이 제공하는 양자화 된 Gemma 모델을 구현 한 llama.cpp 서버와 함께 제공됩니다. 이것은 텍스트 세대 범위에 작용하여 사용자의 검색 경험을 풍부하게합니다.local-search-application (포트 7860) : 그라디오 탭 인터페이스 :llama.cpp-gemma 덕분에 업로드 된 URL과 채팅 할 수 있습니다.all-MiniLM-L6-v2 (10 개의 가장 좋은 경기를 식별하는)와 sentence-t5-base (10 개의 가장 좋은 경기를 다시 인코딩하고 그들로부터 가장 잘 맞는 것을 추출하는)와 함께 이중 계층 검색을 활용하는 직접 검색을 수행 할 수 있습니다. llama.cpp-gemma 와 함께 사용되는 동일한 RAG 구현입니다. 단일 층 헝겊에 비해 더블 레이어 걸레가 어떻게 작동하는지보고 싶습니까? 여기로 가십시오!전반적인 계산 부담은 응용 프로그램을 GPULESS뿐만 아니라 RAM 가용성이 낮을 수 있도록 충분히 가볍습니다 (8GB RAM에 대응하는 데 최대 10 분이 걸릴 수 있지만).
compose.yaml 파일을 저장 한 동일한 디렉토리 내에서 실행 해야하는 다음 (정말 간단한 - 명령으로 응용 프로그램을 작동시킬 수 있습니다.
docker compose up -d 이미 모든 이미지를 가져 오면 http://localhost:7860 또는 http://0.0.0.0:7860 7860에서 1 분 이내에 실행되는 응용 프로그램이 있습니다.
이미지를 가져 오지 않은 경우 실제로 응용 프로그램을 사용하기 전에 설치가 완료되기를 기다려야합니다.
앱이로드되면 컨텐츠와 상호 작용하려는 URL을 작성할 수있는 첫 번째 탭이 있습니다.

이제 URL이 업로드되었으므로 llama.cpp-gemma 통해 콘텐츠와 채팅 할 수 있습니다.

최대 출력 토큰, 온도, 반복 페널티 및 생성 종자와 같은 매개 변수를 설정할 수도 있습니다.
또는 Double-Layered-Retrival Semantic 검색을 사용하여 URL 컨텐츠를 직접 쿼리 할 수 있습니다.

소프트웨어는 MIT 라이센스에 따라 제공되는 오픈 소스입니다.
Astra Clelia Bertelli가 인용되는 한 누구나 그 부분을 사용, 수정 및 재분배 할 수 있습니다.
기부금은 항상 환영하는 것 이상입니다! 자유롭게 문제를 해결하거나 PR을 열거 나 저자에게 연락하여 변경 사항을 제안하거나, 기능을 요청하거나 코드를 개선하십시오.
응용 프로그램이 유용하다고 생각되면 개선을 허용하기 위해 자금 지원을 고려하십시오!