Vector-database con la biblioteca Qdrant e incrustación con tansformadores de oraciones
Simulando una base de datos vectorial en el conjunto de datos conala.
Conjunto de datos
- CONALA: El conjunto de datos de desafíos de código/lenguaje natural para recuperar fragmentos del programa relevantes para las consultas de los usuarios.
Marcos
- Base de datos vectorial: base de datos vectorial en memoria utilizando la biblioteca Qdrant.
- Incruscaciones: Transformador de oración (All-Minilm-L6-V2).
Archivos
- prepare_data.ipynb: cuaderno para ver los datos y el análisis simple del conjunto de datos.
- incrustar.ipynb: contiene el código completo para crear una incrustación utilizando transformadores de oraciones, vector-database usando qdrant y luego recuperación en función de la similitud de coseno.
Si encuentra útil el repositorio, deje caer un