이 저장소에는 책에 대한 시맨틱 및 전체 텍스트 검색 엔진을 실행하는 코드 및 리소스가 포함되어 있습니다. 텍스트 임베딩을 사용하고 MARC21 및 ONIX 3과 같은 국제 표준을 사용하여 다양한 출처의 수확 책 메타 데이터를 지원합니다.
이 응용 프로그램은 PGVECTOR를 벡터 스토어로 PGVECTOR 로 텍스트 임베딩 및 PostgreSQL을 생성하기 위해 다국어 -E5-Small을 활용합니다. 이것은 다국어 시맨틱 검색 기능을 제공합니다.
다음 단계에 따라 응용 프로그램을 설정하고 실행하십시오.
프로젝트 디렉토리에서 다음 명령을 실행하십시오.
docker compose upPGVECTOR가 활성화 된 PostgreSQL 데이터베이스가 시작됩니다.
application.yaml 편집하여 메타 데이터를 수확하기위한 적절한 게이트웨이 및 서비스 -URI를 선택하고 구성하십시오. 사용 가능한 옵션 :
첫 번째 실행은 필요한 임베딩 모델을 다운로드하기 때문에 시간이 걸릴 수 있습니다. 모델이 설치되면 응용 프로그램을 사용할 준비가됩니다.
./gradlew bootRun 브라우저에서 http://localhost:8080 방문하고 메타 데이터 수확이 진행됨에 따라 결과를보십시오. 시맨틱 검색의 경우 검색 쿼리를 입력하거나 임의의 선택을 위해 비워 두십시오 (첫 번째 검색은 임의의 선택이며 나머지는 의미 적으로 유사한 책이 될 것입니다). 전체 텍스트 검색의 경우 검색 쿼리를 입력하십시오.
게이트웨이는 외부 서비스의 세부 사항을 추상화하고 메타 데이터를 외부 서비스에서 공통 모델로 변환합니다. 이 응용 프로그램은 OAI-PMH (Marc21), Bokbasen (Onix) 및 Bibbi의 세 가지 게이트웨이를 지원합니다. Custom Mapper는 application.yaml 에서 적절한 값을 구성하여 필요에 따라 구현하고 활성화 할 수 있습니다.
OAI-PMH 게이트웨이는 메타 데이터 수확 (OAI-PMH) 용 Open Archives 이니셔티브 프로토콜을 사용하여 메타 데이터를 수확합니다. Marc21 형식의 서지 데이터 검색을 지원합니다.
Biblioteksentralen (https://www.bibsent.no/)의 OAI-PMH에 대한 추가 문서 :
Bokbasen Gateway는 출판 업계에서 일반적으로 사용되는 Metadata의 Onix 형식을 사용합니다. 이것은 대규모 도서 공급 업체의 데이터를 수확하는 데 특히 유용합니다.
Bokbasen (https://www.bokbasen.no/)의 Onix에 대한 추가 문서 :
Bibbi Gateway는 Bibbi 메타 데이터 서비스와 통합하는 데 사용됩니다. 게이트웨이는 schema.org를 기반으로 형식을 사용합니다.
Biblioteksentralen (https://www.bibsent.no/)의 Bibbi에 대한 추가 문서 :
책 리뷰의 다중 라벨 분류를위한 버트 기반 모델을 미세 조정하기위한 데이터 세트 추출 지침 : https://github.com/torleifg/book-reviews-genre classification
psql -h localhost -p 5433 -U username -d postgres장르와 형태를 라벨로 사용하여 예제 데이터 세트를 추출하십시오.
copy (
select
concat(metadata ->>'title', '. ', metadata ->>'description') as text,
metadata ->>'genreAndForm' as labels
from
book
where
metadata->>'description' is not null
and metadata->>'description' <> ''
and length(metadata->>'description') > 200
and metadata->>'genreAndForm' is not null
and metadata->>'genreAndForm' <> '[]'
) to '~/dataset.csv' with csv header delimiter ';';