Descarga JSTOR Semantic Search - JSTOR Semantic Search Code Source Download

JSTOR Semantic Search

Otro código fuente

1.0.0

Descargar

JSTOR SEMANTIC SARBLA ‍♀️

Búsqueda de vector de pila completa creada para artículos de código abierto JSTOR - ¡Busque por significado, no palabras clave!

Backend hecho con una base de datos Vector Pinecone, Huggingface/Transformers para incrustaciones y una API de FastAPI con dos puntos finales para hacer consultas con o sin filtros de metadatos. Frontend hecho con react.js

Resumen del proyecto

Este proyecto está destinado a ser utilizado con conjuntos de datos locales construidos a partir del socio oficial de datos de JSTOR, Constellate, en formato JSONL a partir de la opción completa de descarga de datos.

Actualmente, los títulos y subtítulos de los artículos se combinan e integran, y se mide una similitud semántica de la consulta a estos títulos y subtítulos integrados. La información más detallada sobre los artículos se devuelve como parte de los metadatos.

A través de la API y la aplicación web frontend, se puede pasar el número de resultados K deseado, y los filtros como la fecha y el recuento de páginas también se pueden aprobar, en forma de un diccionario de filtro utilizando el lenguaje de consulta de metadatos pinecone.

A través de la API, el diccionario de filtros de metadatos debe reflejar directamente el formato de diccionario que se puede pasar a Pinecone, aunque la aplicación web se encargará de agregar las claves y el usuario puede ingresar solo los valores en un formulario.

Configuración y cómo usar?

¿Configuración de backend?

Python y instalación de dependencia?

Para configurarse con Python y las dependencias para ejecutar este proyecto:

Si Python no está instalado, instálelo desde este enlace.
Clone este repositorio, luego navegue al directorio en el que se encuentra y la carpeta/backend.
Configure un entorno virtual usando:
$ python -m venv <evironment_name>
Activar el entorno virtual. Para Windows CMD, esto se hace usando:
$ <evironment_name>Scriptsactivate.bat
Este enlace muestra cómo hacer esto para otros sistemas operativos y tipos de shell.
Instalar dependencias utilizando:
$ pip install -r requirements.txt
Uno de los archivos de Python se puede ejecutar usando:
$ python <filename>.py

¿Configuración de Pinecone?

Cree una cuenta de Pinecone si es necesario en su sitio web. Cada usuario puede crear un índice gratuito a la vez, y puede eliminar y rehacer este índice tantas veces como desee.
Obtenga su clave y entorno API de la página 'API Keys'
Guarde estos en un archivo llamado .env en la carpeta de backend, en el siguiente formato:
```
 PINECONE_API_KEY='<YOUR API KEY>'
PINECONE_ENV='<YOUR ENVIRONMENT>'
```

¿Agregar datos?

Para agregar datos a su índice de pinecone:

Primero descargue un conjunto de datos o múltiples conjuntos de datos de Constellate. Hay límites para cuántos documentos pueden haber en cada conjunto de datos, pero puede extraer múltiples.
Extraiga sus datos y muévalo a un directorio dentro de este proyecto clonado, idealmente una carpeta A /Data en el directorio /backend.
Cree una instancia de la clase DBWriter desde el archivo db_writerr.py, actualizando la lista de raths_to_data en el constructor para que coincida donde coloque sus archivos de datos y actualizando el nombre index_name al nombre de su índice Pinecone ('JStor-Semantic-Search' de forma predeterminada).
Llame al método .run () de la nueva instancia DBWriter.

Esto debería incrustar y aumentar todos los elementos en el conjunto de datos en su índice Pinecone. Tenga en cuenta que esto se suma al índice actual, por lo que si desea que solo los nuevos datos estén dentro del índice, debe eliminar el índice primero que se puede hacer con el método ._delete_index () de la clase DBClient dentro de este repositorio.

¿Ejecutando la API?

Desde la carpeta /backend, la API se puede ejecutar por cualquiera:

$ uvicorn main:app que no actualiza la API con ningún cambio de desarrollo, pero se puede cerrar fácilmente con un CTRL + C en el terminal
$ uvicorn main:app --reload que actualizará la API con cualquier cambio de desarrollo, pero no se cerrará con CTRL + C

Puntos finales de API

La API tiene dos puntos finales, uno para una búsqueda simple de consulta y otra para una búsqueda con filtros de consulta más metadatos. Sin embargo, la forma en que se procesan los filtros significa que el punto final filtrado funcionará con un dict vacío y, por lo tanto, es el único punto final llamado desde la aplicación web.

GET /api/v1/query/{query_string}/{top_n}

Toma dos parámetros de ruta: - query_string (tipo de datos: cadena) - La consulta de búsqueda principal que debe ser semánticamente similar a los resultados que el usuario desea - top_n (tipo de datos: entero) - el número de coincidencias para devolver

POST /api/v1/filter-query/{query_string}/{top_n}

Toma los mismos dos parámetros de ruta: - Query_String (Tipo de datos: String) - La consulta de búsqueda principal que debe ser semánticamente similar a los resultados que el usuario desea - top_n (tipo de datos: entero) - el número de coincidencias para devolver

Más un dict de filtro en el cuerpo de solicitud, por ejemplo:

{
    "document_type" : { "$eq" : " document " },
    "word_count" : { "$gte" : 2000 }
}

Ambos puntos finales devuelven el mismo tipo de respuesta, con los resultados principales como una matriz dentro de la clave de 'coincidencias', por ejemplo:

{
  "matches" : [
    {
      "id" : " 123-abc-321 " ,
      "score" : 18.792 ,
      "values" : [],
      "metadata" : {
        "categories" : [
          " Language & Literature " ,
          " Humanities "
        ],
        "creator" : [
          " A. Creator "
        ],
        "date_published" : " 2020/04/01 " ,
        "document_sub_type" : " " ,
        "document_type" : " document " ,
        "issue_number" : " 1 " ,
        "language" : [
          " eng "
        ],
        "page_count" : 10.0 ,
        "parent_publication" : " A publication " ,
        "publisher" : " A publisher " ,
        "sub_title" : " " ,
        "title" : " An example " ,
        "url" : " http://www.jstor.org/stable/1234 " ,
        "volume_number" : " 2123 " ,
        "word_count" : 123.0
      }
    }
  ],
  "namespace" : " "
}

Configuración de frontend ⚛️

Una vez que se configura el backend y la API se está ejecutando, debería poder usar la aplicación web para interactuar con la API y buscar más fácilmente. Para hacer esto:

Navegue a la carpeta /frontend en la respositorio clonado (en un terminal separado de la que ejecuta la API)
Ejecute $ npm install para instalar dependencias
Ejecute $ npm start a iniciar la aplicación web localmente
El sitio debe abrirse automáticamente, y también puede navegar a http: // localhost: 3000/para usarlo

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-29
tamaño 175.59KB
Proviene de Github

Aplicaciones relacionadas

Búsqueda de palabras 800

2024-11-08
azure search python samples

2024-11-05
Búsqueda de palabras Juego de rompecabezas de palabras Última versión

2024-07-11
Word Beach Juegos de búsqueda de palabras versión móvil china

2023-11-28
Juego de búsqueda de palabras para niños, última versión

2023-10-08
Liehuo! Buscar búsqueda en inglés

2011-01-07

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo