A Microsoft recentemente abriu o código-fonte de um sistema de geração de aprimoramento de recuperação baseado em gráfico - GraphRAG em seu site oficial. Este sistema aprimora significativamente os recursos de grandes modelos em pesquisa, resposta a perguntas, resumo e raciocínio por meio da construção de gráficos de conhecimento de entidade. Diferente das limitações dos sistemas RAG tradicionais que dependem muito da recuperação local de fragmentos de texto, o GraphRAG pode capturar conexões e interações complexas em conjuntos de dados para obter recuperação global e é especialmente bom no processamento de conjuntos de dados em grande escala. Seu núcleo está nas duas etapas de construção de um gráfico de conhecimento da entidade e geração de resumos da comunidade. Ele pode extrair com eficiência informações importantes por meio de resumos da comunidade e gerar respostas mais abrangentes e precisas. O que é mais digno de nota é que a demanda por tokens do GraphRAG é extremamente baixa, o que é sem dúvida uma enorme vantagem de custo para os desenvolvedores.

Entrada do projeto: https://top.aibase.com/tool/graphrag
Ao lidar com fontes de dados externas, os sistemas RAG tradicionais dependem demasiado da recuperação de fragmentos de texto locais e não conseguem capturar a imagem completa de todo o conjunto de dados. O GraphRAG ajuda modelos grandes a capturar melhor conexões e interações complexas em texto, construindo gráficos de conhecimento de entidades, alcançando assim capacidades de recuperação globais.
O núcleo do GraphRAG consiste em duas etapas: construir um gráfico de conhecimento da entidade e gerar resumos da comunidade. Por meio da sumarização da comunidade, o GraphRAG consegue extrair informações relevantes de todo o conjunto de dados para gerar respostas mais abrangentes e precisas. Além disso, o GraphRAG tem uma demanda muito baixa por tokens, o que significa que pode ajudar os desenvolvedores a economizar muitos custos.
A Microsoft conduziu um teste abrangente no GraphRAG em um conjunto de dados com 1 milhão de tokens e uma estrutura ultracomplexa. Os resultados mostraram que o GraphRAG superou métodos como o Naive RAG em testes de abrangência e diversidade, e foi mais eficaz na transcrição de podcasts e dados de artigos de notícias. Todos eles demonstraram padrões extremamente elevados e são atualmente um dos melhores métodos RAG.
Destaques:
- GraphRAG aprimora a pesquisa, resposta a perguntas, resumo, raciocínio e outros recursos de grandes modelos através da construção de gráficos de conhecimento de entidades e é particularmente bom no processamento de conjuntos de dados em grande escala.
- O núcleo do GraphRAG inclui duas etapas: construir um gráfico de conhecimento da entidade e gerar resumos da comunidade. Os resumos da comunidade são usados para extrair informações relevantes no conjunto de dados para gerar respostas mais abrangentes e precisas.
- GraphRAG tem demanda muito baixa por tokens e pode ajudar os desenvolvedores a economizar custos. Ele tem um bom desempenho em testes abrangentes e é um dos melhores métodos RAG atualmente.
Em resumo, o GraphRAG trouxe novos avanços para o campo da geração de aprimoramento de recuperação com seu excelente desempenho no processamento de conjuntos de dados em grande escala e vantagens de custo significativas, o que merece atenção e mais pesquisas. Seu código aberto também fornece aos desenvolvedores recursos e ferramentas valiosas.