Au- beyond_vector_search du téléchargement de la source du code source beyond_vector

beyond_vector_search

Autre code source

1.0.0

Télécharger

Au-delà de la recherche vectorielle
Moteur de requête de vecteur hybride / graphique de connaissances pour une récupération de données améliorée

Moteur de requête de vecteur hybride / graphique de connaissances pour une récupération de données améliorée

Installation

Nous avons utilisé Python == 3.9.18, et nous vous recommandons d'utiliser un environnement virtuel pour installer les packages requis.

 pip install -r requirements.txt

Création de données filtrées

notebooks/parsing_json.ipynb : filtrez les données pour arXiv
notebooks/parsing_cnn_news.ipynb : Filtrez les données pour CNN News
notebooks/parsing_wiki_movies.ipynb : filtrez les données pour les films wiki

Ensemble de données

Nous avons utilisé un sous-ensemble de l'ensemble de données ARXIV de Kaggle qui contient 12 926 échantillons, et le fichier Pickle est fourni à "Beyond_vector_Search / Data / Filtered_Data.Pickle".

Code source

 make_vectordb.py: a script to build a vector database from a "data/filtered_data.pickle"

utils/
    - build_graph.py: a script containing helper functions for building the knowledge graph
    - parse_arxiv.py: a script containing helper functions for parsing the arxiv dataset
vector_graph/
    - bipartite_graph_dict.py: A custom implementation of the bipartite graph
    - bipartite_graph_networkx.py: An experimental implementation of the bipartite graph using networkx
    - embedding_models.py: A custom implementation of the embedding models for generating the text embeddings
workloads
    - keyword_extractor.py
    - query_gen.py: A script for generating the text queries given paper data points
    - workload_gen.sh: This is the script for generating the workloads we described in the report
testing
    - inference.py: A script for executing our various search query engines on the generated workloads
zy_testing
    - compute_metrics_cos.py: A script for computing the accuracy of our results utilizing various performance compute_metrics_cos

Développer

Informations supplémentaires