JSTOR Semantic Search Download - JSTOR Semantic Search Source Code Download

JSTOR Semantic Search

Autre code source

1.0.0

Télécharger

JSTOR Semantic Search ‍♀️

Recherche vectorielle complète construite pour les articles open source JSTOR - Recherche par sens, pas les mots clés!

Backend fait avec une base de données vectorielle de Pinecone, des étreintes / transformateurs pour les incorporations et une API FastAPI avec deux points de terminaison pour faire des requêtes avec ou sans filtres de métadonnées. Frontend fait avec react.js

Résumé du projet

Ce projet est destiné à être utilisé avec des ensembles de données locaux construits à partir du partenaire de données officiel de JSTOR Constellate, au format JSONL à partir de l'option complète de téléchargement de données.

Actuellement, les titres et les sous-titres d'articles sont combinés et intégrés, et une similitude sémantique est mesurée de la requête à ces titres et sous-titres intégrés. Des informations plus détaillées sur les articles sont retournées dans le cadre des métadonnées.

Grâce à l'API et à l'application Web Frontend, le nombre supérieur de résultats souhaité peut être passé, et des filtres tels que la date et le nombre de pages peuvent également être passés, sous la forme d'un dictionnaire de filtre à l'aide du langage de requête de métadonnées PineCone.

Grâce à l'API, le dictionnaire des filtres de métadonnées doit refléter directement le format de dictionnaire qui peut être transmis à PineCone, bien que l'application Web gère l'ajout des touches et l'utilisateur peut saisir uniquement les valeurs dans un formulaire.

Configuration et comment utiliser?

Configuration du backend?

Installation de python et de dépendance?

Pour être configuré avec Python et les dépendances pour exécuter ce projet:

Si Python n'est pas installé, installez-le à partir de ce lien.
Clone ce référentiel, puis accédez au répertoire dans lequel il se trouve et dans le dossier / backend.
Configurer un environnement virtuel en utilisant:
$ python -m venv <evironment_name>
Activer l'environnement virtuel. Pour Windows CMD, cela se fait en utilisant:
$ <evironment_name>Scriptsactivate.bat
Ce lien montre comment procéder pour d'autres systèmes d'exploitation et types de shell.
Installez les dépendances en utilisant:
$ pip install -r requirements.txt
L'un des fichiers Python peut être exécuté en utilisant:
$ python <filename>.py

Configuration de Pinecone?

Créez un compte PineCone si nécessaire sur leur site Web. Chaque utilisateur peut créer un index gratuit à la fois, et vous pouvez supprimer et refaire cet index autant que vous le souhaitez.
Obtenez votre clé API et votre environnement à partir de la page «API Keys»
Enregistrez-les dans un fichier appelé .env dans le dossier backend, dans le format suivant:
```
 PINECONE_API_KEY='<YOUR API KEY>'
PINECONE_ENV='<YOUR ENVIRONMENT>'
```

Ajouter des données?

Pour ajouter des données à votre index de pince:

Téléchargez d'abord un ensemble de données ou plusieurs ensembles de données à partir de constellate. Il existe des limites au nombre de documents peut être dans chaque ensemble de données, mais vous pouvez tirer plusieurs.
Extraire vos données et les déplacer dans un répertoire dans ce projet cloné, idéalement un dossier de données dans le répertoire backend.
Créez une instance de la classe DBWriter à partir du fichier db_writer.py, à la mise à jour de la liste de paths_to_data dans le constructeur pour correspondre à vos fichiers de données et à la mise à jour de l'index_name au nom de votre index de pinecone ('jstor-sémantique-search' par défaut).
Appelez la méthode .run () de la nouvelle instance DBWriter.

Cela devrait intégrer et mettre le service de tous les éléments de l'ensemble de données dans votre index de pignon. Remarque, cela s'ajoute à l'index actuel, donc si vous souhaitez que les nouvelles données ne soient dans l'index, vous devez d'abord supprimer l'index qui peut être fait avec la méthode ._delete_index () de la classe DBClient dans ce référentiel.

Exécuter l'API?

Dans le dossier / backend, l'API peut être exécutée par:

$ uvicorn main:app qui ne metra pas à jour l'API avec aucune modification de développement, mais peut être fermée facilement avec un CTRL + C dans le terminal
$ uvicorn main:app --reload qui mettra à jour l'API avec les modifications de développement, mais ne s'arrêtera pas avec Ctrl + C

Points de terminaison API

L'API a deux points de terminaison, un pour une simple recherche de requête uniquement, et une pour une recherche avec des filtres de métadonnées Query Plus. Cependant, la façon dont les filtres sont traités signifie que le point de terminaison filtré fonctionnera avec un dict vide, et est donc le seul point de terminaison appelé à partir de l'application Web.

GET /api/v1/query/{query_string}/{top_n}

Prend deux paramètres de chemin: - Query_String (Type de données: chaîne) - La requête de recherche principale qui devrait être sémantiquement similaire aux résultats que l'utilisateur souhaite - top_n (type de données: entier) - le nombre de correspondances à retourner

POST /api/v1/filter-query/{query_string}/{top_n}

Prend les deux mêmes paramètres de chemin: - Query_String (Type de données: chaîne) - La requête de recherche principale qui devrait être sémantiquement similaire aux résultats que l'utilisateur souhaite - top_n (type de données: entier) - le nombre de correspondances à retourner

Plus un dict de filtre dans le corps de la demande, par exemple:

{
    "document_type" : { "$eq" : " document " },
    "word_count" : { "$gte" : 2000 }
}

Les deux points de terminaison renvoient le même type de réponse, avec des résultats principaux comme un tableau dans la touche «correspondant», par exemple:

{
  "matches" : [
    {
      "id" : " 123-abc-321 " ,
      "score" : 18.792 ,
      "values" : [],
      "metadata" : {
        "categories" : [
          " Language & Literature " ,
          " Humanities "
        ],
        "creator" : [
          " A. Creator "
        ],
        "date_published" : " 2020/04/01 " ,
        "document_sub_type" : " " ,
        "document_type" : " document " ,
        "issue_number" : " 1 " ,
        "language" : [
          " eng "
        ],
        "page_count" : 10.0 ,
        "parent_publication" : " A publication " ,
        "publisher" : " A publisher " ,
        "sub_title" : " " ,
        "title" : " An example " ,
        "url" : " http://www.jstor.org/stable/1234 " ,
        "volume_number" : " 2123 " ,
        "word_count" : 123.0
      }
    }
  ],
  "namespace" : " "
}

Configuration du frontend ⚛️

Une fois le backend configuré et que l'API est en cours d'exécution, vous devriez pouvoir utiliser l'application Web pour interagir avec l'API et rechercher plus facilement. Pour faire ceci:

Naviguez vers le dossier / frontend dans le répondant cloné (dans un terminal séparé de celui qui exécute l'API)
Exécutez $ npm install pour installer les dépendances
Exécutez $ npm start pour démarrer l'application Web localement
Le site doit s'ouvrir automatiquement et vous pouvez également naviguer vers http: // localhost: 3000 / pour l'utiliser

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2025-05-29
taille 175.59KB
Provenant de Github

Applications connexes

Recherche de mots 800

2024-11-08
azure search python samples

2024-11-05
Recherche de mots Jeu de puzzle de mots Dernière version

2024-07-11
Jeux de recherche de mots Word Beach Version mobile chinoise

2023-11-28
Recherche de mots pour les enfants, dernière version du jeu

2023-10-08
Liehuo! Rechercher Recherche en anglais

2011-01-07

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3
Google Dorks

Autre code source

1.0
shepherd

Autre code source

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Autre code source

v1.1.0-rc-3

Actualités connexes Tout