JSTOR Semantic Search Download - JSTOR Semantic Search Source Code Download

JSTOR Semantic Search

Anderer Quellcode

1.0.0

Herunterladen

JStor Semantische Suche ‍♀️

Full Stack Vector -Suche nach JStor Open Source -Artikeln - Suche nach Bedeutung, nicht nach Schlüsselwörtern!

Backend mit einer Tinecone -Vektor -Datenbank, Umarmung/Transformatoren für Einbettungen und eine Fastapi -API mit zwei Endpunkten zum Abfragen mit oder ohne Metadatenfilter. Frontend mit React.js gemacht

Projektzusammenfassung

Dieses Projekt soll mit lokalen Datensätzen verwendet werden, die aus dem offiziellen Datenpartner von JSTOR im JSONL -Format aus der vollständigen Daten -Download -Option erstellt werden.

Derzeit werden die Titel und Untertitel von Artikeln kombiniert und eingebettet, und eine semantische Ähnlichkeit wird von der Abfrage zu diesen eingebetteten Titeln und Untertiteln gemessen. Detailliertere Informationen zu den Artikeln werden als Teil der Metadaten zurückgegeben.

Durch die API und die Frontend Web App können die gewünschte obere k -Anzahl der Ergebnisse übergeben werden, und Filter wie Datum und Seitenzahl können ebenfalls in Form eines Filterwörterbuchs unter Verwendung der Pinecone -Metadaten -Abfragesprache übergeben werden.

Durch die API sollte das Wörterbuch von Metadatenfiltern das Wörterbuchformat direkt widerspiegeln, das an Pnecone übergeben werden kann, obwohl die Web -App das Hinzufügen der Tasten und der Benutzer nur die Werte in einem Formular eingeben kann.

Setup und wie man benutzt?

Backend -Setup?

Python- und Abhängigkeitsinstallation?

Um mit Python und den Abhängigkeiten eingerichtet zu werden, um dieses Projekt auszuführen:

Wenn Python nicht installiert ist, installieren Sie es aus diesem Link.
Klonen Sie dieses Repository und navigieren Sie dann zum Verzeichnis, in dem es sich befindet, und im Ordner/Backend.
Richten Sie eine virtuelle Umgebung mit:
$ python -m venv <evironment_name>
Aktivieren Sie die virtuelle Umgebung. Für Windows CMD erfolgt dies mit:
$ <evironment_name>Scriptsactivate.bat
Dieser Link zeigt, wie dies für andere Betriebssysteme und Shell -Typen dies tun.
Installieren Sie Abhängigkeiten mit:
$ pip install -r requirements.txt
Eine der Python -Dateien kann mit:
$ python <filename>.py

Timecone Setup?

Erstellen Sie bei Bedarf ein Pnecone -Konto auf ihrer Website. Jeder Benutzer kann jeweils einen kostenlosen Index erstellen und Sie können diesen Index so oft wie gewünscht löschen und neu erstellen.
Holen Sie sich Ihre API -Taste und -umgebung von der Seite "API Keys"
Speichern Sie diese in einer Datei namens .Env im Backend -Ordner im folgenden Format:
```
 PINECONE_API_KEY='<YOUR API KEY>'
PINECONE_ENV='<YOUR ENVIRONMENT>'
```

Daten hinzufügen?

Fügen Sie Ihrem Tierenindex Daten hinzu:

Laden Sie zunächst einen Datensatz oder mehrere Datensätze von Contressed herunter. Es gibt Grenzen, wie viele Dokumente in jedem Datensatz sein können, aber Sie können mehrere ziehen.
Extrahieren Sie Ihre Daten und verschieben Sie sie in ein Verzeichnis innerhalb dieses geklonten Projekts, idealerweise im A /Data -Ordner im /Backend -Verzeichnis.
Erstellen Sie eine Instanz der DBWriter-Klasse aus der Datei db_writerr.py und aktualisieren Sie die Liste der paths_to_data im Konstruktor, an die Sie Ihre Datendateien einfügen, und aktualisieren Sie den Index_Name auf den Namen Ihres Pinecone-Index ('JStor-Semantic-Search' standardmäßig).
Rufen Sie die .run () -Methode der neuen DBWriter -Instanz auf.

Dies sollte alle Elemente im Datensatz in Ihren Tinecone -Index einbetten und erhöhen. Beachten Sie, dass dies zum aktuellen Index hinzugefügt wird. Wenn Sie also möchten, dass sich nur die neuen Daten im Index befinden, sollten Sie den Index zuerst löschen, der mit der Methode ._delete_index () der DBClient -Klasse in diesem Repository erfolgen kann.

Die API ausführen?

Aus dem Ordner /Backend -Ordner kann die API von beiden ausgeführt werden:

$ uvicorn main:app , die die API nicht mit Entwicklungsänderungen aktualisiert, aber mit einem Strg + C im Terminal einfach geschlossen werden kann
$ uvicorn main:app --reload , das die API mit allen Entwicklungsänderungen aktualisiert, aber mit Strg + C nicht abgeschaltet wird

API -Endpunkte

Die API verfügt über zwei Endpunkte, eine für eine einfache Suche nur für die Suche und eine für eine Suche mit Abfrage plus Metadatenfilter. Die Art und Weise, wie die Filter verarbeitet werden, bedeutet jedoch, dass der gefilterte Endpunkt mit einem leeren DICT funktioniert und daher der einzige Endpunkt ist, der aus der Web -App aufgerufen wird.

GET /api/v1/query/{query_string}/{top_n}

Nimmt zwei Pfadparameter an: - query_string (Datentyp: String) - die Hauptsuchabfrage, die den Ergebnissen semantisch ähnlich sein sollte, die der Benutzer will - Top_n (Datentyp: Integer) - die Anzahl der Übereinstimmungen,

POST /api/v1/filter-query/{query_string}/{top_n}

Nimmt die gleichen zwei Pfadparameter an: - Query_String (Datentyp: String) - Die Hauptsuchabfrage, die den Ergebnissen semantisch ähnlich sein sollte - TOP_N (Datentyp: Integer) - die Anzahl der Übereinstimmungen, die zurückgegeben werden sollen

Plus ein Filterdikt in der Anfrage -Körperschaft, zum Beispiel:

{
    "document_type" : { "$eq" : " document " },
    "word_count" : { "$gte" : 2000 }
}

Beide Endpunkte geben den gleichen Antworttyp zurück, wobei die Hauptergebnisse als Array innerhalb der Schlüsselstrecke 'Übereinstimmungen', zum Beispiel:

{
  "matches" : [
    {
      "id" : " 123-abc-321 " ,
      "score" : 18.792 ,
      "values" : [],
      "metadata" : {
        "categories" : [
          " Language & Literature " ,
          " Humanities "
        ],
        "creator" : [
          " A. Creator "
        ],
        "date_published" : " 2020/04/01 " ,
        "document_sub_type" : " " ,
        "document_type" : " document " ,
        "issue_number" : " 1 " ,
        "language" : [
          " eng "
        ],
        "page_count" : 10.0 ,
        "parent_publication" : " A publication " ,
        "publisher" : " A publisher " ,
        "sub_title" : " " ,
        "title" : " An example " ,
        "url" : " http://www.jstor.org/stable/1234 " ,
        "volume_number" : " 2123 " ,
        "word_count" : 123.0
      }
    }
  ],
  "namespace" : " "
}

Frontend Setup ⚛️

Sobald das Backend eingerichtet ist und die API ausgeführt wird, sollten Sie die Web -App verwenden können, um mit der API zu interagieren und einfacher zu suchen. Um dies zu tun:

Navigieren Sie zum /Frontend -Ordner im geklonten Respository (in einem separaten Terminal von dem, der die API ausführt)
Führen Sie $ npm install aus, um Abhängigkeiten zu installieren
Führen Sie $ npm start um die Web -App lokal zu starten
Die Website sollte automatisch geöffnet und Sie können auch zu http: // localhost: 3000/zur Verwendung navigieren, um sie zu verwenden

Expandieren

Zusätzliche Informationen