NEPSE Chatbot Using Retrieval augmented generation and reranking - NEPSE Chatbot Using Retrieval augmented generation and reranking

NEPSE Chatbot Using Retrieval augmented generation and reranking

Otro código fuente

1.0.0

Descargar

Recuperación de generación aumentada con Reranking

Fuente de la imagen: Mk Pavan Kumar

RECURSAS RERANKING

Fuente de la imagen: pinecone

Este proyecto aprovecha los modelos de código abierto para construir un chatbot para Nepse, el Nepal Stock Exchange Ltd, utilizando la técnica de generación aumentada de recuperación. El folleto de Nepse PDF se utiliza para la respuesta de preguntas. El proyecto utiliza los siguientes modelos de código abierto:

Se utiliza Intel/Neural-Chat-7B-V3-1: se utiliza un LLM de código abierto, desarrollado originalmente por Intel y cuantificado por TheBloke. Específicamente, la versión cuantificada GPTQ de 8 bits se emplea debido a la memoria limitada.
- Modelo original
- Modelo cuantificado
All-MPNET-Base-V2: un transformador de oración de código abierto de la cara abrazada llamada All-MPNET-Base-V2 se utiliza para generar incrustaciones de alta calidad.
- Transformador de oraciones
AAI/BGE-Reranker-Large: un modelo de rehacer de código abierto de la cara abrazada llamada BGE-Reranker-Large se usa para volver a clasificar los documentos recuperados de la tienda Vector.
- Reestructuración
API de traducción de Google: la API gratuita de Google Translate se utiliza para realizar la traducción entre el contenido nepalí y el inglés.

Los datos de texto del folleto NEPSE se limpian, se dividen en trozos y se desarrollan integradores utilizando transformadores de oraciones, que se agregan a la base de datos FAISS Vector. Cuando el usuario ingresa una pregunta, se desarrollan incrustaciones de la entrada y se utilizan los incrustaciones de preguntas para realizar una búsqueda vectorial para recuperar los principales documentos K. Los documentos recuperados de Top-K se pasan al modelo Reranking para mejorar la calidad y la relevancia de las recuperaciones. Finalmente, los principales documentos de Reranked se pasan como contexto a la LLM con una ingeniería rápida adecuada para proporcionar respuestas a los usuarios.

Se ha desarrollado un frontend simple con HTML, CSS y JavaScript, y un backend usando Flask. Las respuestas/tokens predichos del LLM se transmiten a la frontend en tiempo real para reducir la latencia del usuario y mejorar la experiencia del usuario. La aplicación se implementa en una instancia G4DN.XLARGE AWS EC2 para inferencia en tiempo real.

GPU de instancia

Con 16 GB de VRAM, los tres modelos encajarán fácilmente sin ningún problema. Las capturas de pantalla y los clips a continuación muestran la capacidad de respuesta de preguntas en tiempo real del chatbot Nepse implementado en AWS.

Captura de pantalla 1

Captura de pantalla 2

Captura de pantalla 3

Transmisión de respuesta LLM (como chatgpt)

Vista previa de transmisión de respuesta LLM

Haga clic en el enlace a continuación para ver/descargar el video completo.

Ver video

Experimentos futuros

Se podrían probar más de LLM más potentes. También intenté usar la API Gemini-Pro de Google, que da resultados mucho mejores. Sin embargo, usar una API significa que compartiremos nuestros datos con un tercero. Además, no podremos ajustar el LLM en nuestros datos personalizados también.
Transformador de oraciones ajustado y modelos de relevación para una generación de incrustación potencialmente más efectiva y relevante con respecto a nuestros datos personalizados.

Referencias

Generación aumentada de recuperación avanzada: cómo Rereaking puede cambiar el juego
Rerankers - Pinecone

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2025-05-28
tamaño 9.35MB
Proviene de Github

Aplicaciones relacionadas

Dibuja y adivina en línea

2024-11-08
Retrieval based Voice Conversion WebUI

2024-11-01
fragmentos y piezas del cuento

2023-05-19
Retos de la Generación Cero CODEX

2022-11-02
Mable y la madera

2022-08-27
Generación Cero – Disturbios Alpinos

2022-08-20

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3
Google Dorks

Otro código fuente

1.0
shepherd

Otro código fuente

v6.1.6-react-shepherd: Prepare Release (#3063)
mongo express

Otro código fuente

v1.1.0-rc-3

Información relacionada Todo