다소 빠른 프로젝트 로서이 저장소는 사용자가 PDF 문서 데이터베이스에 대해 쿼리하는 것보다 스크린 샷을 업로드 할 수있는 간단한 응용 프로그램을 제공합니다. 이미지 구조와 (아마도) 포함 된 텍스트는 자체 정의 세트에 대한 일치하는 문서를 찾는 데 사용됩니다.
사용자가 스크린 샷을 업로드하면 두 개의 흐름이 트리거됩니다. 먼저 스크린 샷의 두 덩어리를 형성하는 이미지 임베딩을 작성합니다. 덩어리는 VIT-G-14 이미지 임베딩이 제곱 입력으로 훈련되기 때문에 구성됩니다. 파워 포인트 슬라이드 또는 A4 문서는 일반적으로 2 : 1에 가까운 측면 관계가 있으므로 청킹은 전체 쿼리 품질을 지원해야합니다. 이미지 임베딩 (2 x 1024dim)은 알려진 덩어리의 벡터 저장소에 대해 쿼리됩니다. 두 번째 흐름은 먼저 Google의 TesserAct OCR 엔진을 사용하여 스크린 샷에서 텍스트를 추출합니다. 그 후 텍스트 임베딩 (1024dim)은 가장 잘 수행하는 다중 언어 모델 중 하나 인 E5-Large를 사용하여 빌드됩니다. 최종 단계에서 결과는 벡터 스토어간에 공유 ID 시스템을 사용하여 다시 병합되어 사용자에게 전송됩니다.
이곳은 내가 내 생각 중 일부를 공유하는 곳입니다.
아이디어는 빠르게 사용하는 도구를 제공하는 것이 었습니다. 프레젠테이션 슬라이드가 있다고 가정하고 이전에 비슷한 것을 만들었는지 알고 싶다고 가정하십시오. 전체 문서를 업로드하면 추가 페이지 번호 입력 필드에 대한 요구 사항이 있으시면 파일 시스템에서 문서를 찾아야하며 파일 유형을 지원해야합니다. 스크린 샷을 찍는 것만으로는 더 빠르며 (모든 OS에 편리한 바로 가기가 있습니다) 단일 사진을 업로드하는 것만으로는 간단합니다.
작은 앱을 작성하는 것이 빠르며 CLI 기반 도구보다 시각적 인터페이스를 좋아합니다.
대부분 huggingface leaderboards를 통해. 이것은 작은 프로젝트이므로 미리 훈련 된 모델을 독점적으로 사용하고 싶었습니다.
스크립트 pdf_to_db.py 는 pdfs/ 의 모든 문서에 대한 간단한 반복입니다. 다른 클래스를 사용하여 벡터 저장소를 채우십시오.
이것은 적극적으로 개발 된 프로젝트가 아니며 주로 중고 기술과 함께 프로젝트를 수행하는 데 사용되었습니다. 궁금한 점이 있으시면 언제든지 저에게 연락하십시오.