Microsoft abrió recientemente un sistema de generación de mejora de recuperación basado en gráficos: GraphRAG en su sitio web oficial. Este sistema mejora significativamente las capacidades de modelos grandes en búsqueda, respuesta a preguntas, resumen y razonamiento mediante la creación de gráficos de conocimiento de entidades. A diferencia de las limitaciones de los sistemas RAG tradicionales que dependen demasiado de la recuperación de fragmentos de texto local, GraphRAG puede capturar conexiones e interacciones complejas en conjuntos de datos para lograr una recuperación global y es especialmente bueno en el procesamiento de conjuntos de datos a gran escala. Su núcleo radica en los dos pasos de construir un gráfico de conocimiento de la entidad y generar resúmenes comunitarios. Puede extraer información clave de manera eficiente a través de resúmenes comunitarios y generar respuestas más completas y precisas. Lo que es más notable es que la demanda de tokens de GraphRAG es extremadamente baja, lo que sin duda es una gran ventaja de costos para los desarrolladores.

Entrada del proyecto: https://top.aibase.com/tool/graphrag
Cuando se trata de fuentes de datos externas, los sistemas RAG tradicionales dependen demasiado de la recuperación de fragmentos de texto locales y no logran capturar la imagen completa de todo el conjunto de datos. GraphRAG ayuda a los modelos grandes a capturar mejor conexiones e interacciones complejas en texto mediante la creación de gráficos de conocimiento de entidades, logrando así capacidades de recuperación globales.
El núcleo de GraphRAG consta de dos pasos: crear un gráfico de conocimiento de la entidad y generar resúmenes de la comunidad. A través del resumen comunitario, GraphRAG puede extraer información relevante de todo el conjunto de datos para generar respuestas más completas y precisas. Además, GraphRAG tiene una demanda muy baja de tokens, lo que significa que puede ayudar a los desarrolladores a ahorrar muchos costos.
Microsoft realizó una prueba exhaustiva en GraphRAG en un conjunto de datos con 1 millón de tokens y una estructura ultracompleja. Los resultados mostraron que GraphRAG superó métodos como Naive RAG en pruebas de amplitud y diversidad, y fue más efectivo en la transcripción de podcasts y datos de artículos de noticias. Todos ellos han demostrado estándares extremadamente altos y actualmente son uno de los mejores métodos RAG.
Reflejos:
- GraphRAG mejora la búsqueda, la respuesta a preguntas, el resumen, el razonamiento y otras capacidades de modelos grandes mediante la creación de gráficos de conocimiento de entidades, y es particularmente bueno en el procesamiento de conjuntos de datos a gran escala.
- El núcleo de GraphRAG incluye dos pasos: construir un gráfico de conocimiento de la entidad y generar resúmenes comunitarios. Los resúmenes comunitarios se utilizan para extraer información relevante en el conjunto de datos para generar respuestas más completas y precisas.
- GraphRAG tiene una demanda muy baja de tokens y puede ayudar a los desarrolladores a ahorrar costos. Funciona bien en pruebas exhaustivas y es uno de los mejores métodos RAG actualmente.
En resumen, GraphRAG ha aportado nuevos avances al campo de la generación de mejoras de recuperación con su excelente rendimiento en el procesamiento de conjuntos de datos a gran escala y importantes ventajas de costos, lo que merece atención y más investigación. Su código abierto también proporciona a los desarrolladores valiosos recursos y herramientas.