book reviews semantic searchダウンロード - book reviews semantic searchソースコードのダウンロード

book reviews semantic search

その他のソースコード

1.0.0

ダウンロード

書籍のセマンティックおよびフルテキスト検索エンジン

このリポジトリには、本のセマンティックおよびフルテキスト検索エンジンを実行するためのコードとリソースが含まれています。 MARC21やOnix 3などの国際基準を使用して、テキストの埋め込みを利用し、さまざまなソースから本メタデータを収穫することをサポートします。

このアプリケーションは、テキスト埋め込みを生成し、 PGVectorをベクトルストアとしてPGVectorを使用して、Multilingual-E5-Smallを活用します。これにより、多言語セマンティック検索機能が提供されます。

テクノロジー

多言語-E5-Small ：この事前に訓練されたモデルは、テキストの埋め込みを生成するために使用されます。
PGVector ：検索エンジンのベクトルストアとして使用されるベクトルを保存およびクエリするためのPostgreSQL拡張機能。

はじめる

次の手順に従って、アプリケーションを設定して実行します。

1. postgreSQLデータベースを作成および実行します

プロジェクトディレクトリで次のコマンドを実行します。

docker compose up

これにより、PGVectorが有効になってPostgreSQLデータベースが開始されます。

2。ゲートウェイを構成します

application.yamlを編集して、メタデータを収穫するための適切なゲートウェイとサービス-URIを選択して構成します。利用可能なオプション：

oai-pmh
ビビ
ボクバセン

3。アプリケーションを開始します

最初の実行には、必要な埋め込みモデルをダウンロードするため、時間がかかる場合があります。モデルが設置されると、アプリケーションの使用準備が整います。

./gradlew bootRun

4.検索エンジンを使用します

ブラウザのhttp://localhost:8080にアクセスして、メタデータの収穫が進行するにつれて結果を視聴してください。セマンティック検索の場合、検索クエリを入力するか、ランダムな選択のために空白のままにします（最初の検索ヒットはランダムな選択であり、残りは意味的に類似した本になります）。フルテキスト検索の場合、検索クエリを入力します。

ゲートウェイ

ゲートウェイは、外部サービスの詳細を抽象化し、メタデータを外部サービスから共通モデルに変換します。アプリケーションは、OAI-PMH（MARC21）、Bokbasen（Onix）、Bibbiの3つのゲートウェイをサポートしています。必要に応じてカスタムマッパーを実装し、 application.yamlで適切な値を構成することでアクティブにすることができます。

oai-pmh

OAI-PMHゲートウェイは、メタデータ収穫用のOpen Archives Initiativeプロトコル（OAI-PMH）を使用してメタデータを収穫します。 MARC21形式の書誌データの取得をサポートしています。

oai-pmh
MARC21

Biblioteksentralen（https://www.bibsent.no/）からのoai-pmhの追加ドキュメント：

Aja Oai-PMH API （認証は必要ありません）

ボクバセン

Bokbasen Gatewayは、公開業界で一般的に採用されているメタデータにOnix形式を使用しています。これは、大規模な本ベンダーからのデータを収穫するのに特に役立ちます。

ONIX 3.0

BokbasenのOnixの追加ドキュメント（https://www.bokbasen.no/）：

Bokbasen Onix API （認証が必要）

ビビ

Bibbi Gatewayは、Bibbiメタデータサービスとの統合に使用されます。ゲートウェイは、schema.orgに基づいた形式を使用します。

schema.org

Biblioteksentralen（https://www.bibsent.no/）からのBibbiの追加ドキュメント：

BibbiメタデータREST API （認証は不要）

テキスト分類

書評のマルチラベル分類のためのBERTベースのモデルを微調整するためのデータセットを抽出するための手順：https：//github.com/torleifg/book-reviews-genre-classification

psql -h localhost -p 5433 -U username -d postgres

ジャンルを使用してラベルとしてフォームを使用してデータセットの例を抽出します。

 copy (
select
	concat(metadata ->>'title', '. ', metadata ->>'description') as text,
	metadata ->>'genreAndForm' as labels
from
	book
where
	metadata->>'description' is not null
	and metadata->>'description' <> ''
	and length(metadata->>'description') > 200
	and metadata->>'genreAndForm' is not null
	and metadata->>'genreAndForm' <> '[]'
) to '~/dataset.csv' with csv header delimiter ';';

拡大する

追加情報