微软近日在其官网开源了基于图的检索增强生成系统——GraphRAG,该系统通过构建实体知识图谱,显着增强了大模型在搜索、问答、摘要和推理等方面的能力。不同于传统RAG系统过度依赖局部文本片段检索的局限性,GraphRAG能够捕捉数据集中的复杂联系和交互,实现全局检索,尤其擅长处理大规模数据集。其核心在于构建实体知识图谱和生成社区摘要两个步骤,通过社区摘要高效提取关键信息,生成更全面准确的答案。更值得关注的是,GraphRAG对tokens的需求极低,这对于开发者来说无疑是巨大的成本优势。

项目入口:https://top.aibase.com/tool/graphrag
传统的RAG 系统在处理外部数据源时,过度依赖局部文本片段的检索,无法捕捉到整个数据集的全貌。而GraphRAG 则通过构建实体知识图谱,帮助大模型更好地捕捉文本中的复杂联系和交互,从而实现了全局检索能力。
GraphRAG 的核心包括两个步骤:构建实体知识图谱和生成社区摘要。通过社区摘要,GraphRAG 能够从整个数据集中提取相关信息,生成更全面和准确的答案。此外,GraphRAG 对tokens 的需求很低,也就是说可以帮助开发者节省大量成本。
微软在一个100万tokens、超复杂结构的数据集上,对GraphRAG 进行了综合测试,结果显示GraphRAG 在全面性和多样性测试上,超越了Naive RAG 等方法,且在播客转录和新闻文章数据集上都显示出了超高的水准,是目前最佳的RAG 方法之一。
划重点:
- GraphRAG 通过构建实体知识图谱来增强大模型的搜索、问答、摘要、推理等能力,特别擅长处理大规模数据集。
- GraphRAG 的核心包括构建实体知识图谱和生成社区摘要两个步骤,通过社区摘要提取数据集中相关信息,生成更全面和准确的答案。
- GraphRAG 对tokens 的需求很低,能够帮助开发者节省成本。在综合测试中表现优异,是目前最佳的RAG 方法之一。
总之,GraphRAG凭借其在处理大规模数据集方面的优异表现和显着的成本优势,为检索增强生成领域带来了新的突破,值得关注和进一步研究。其开源也为开发者提供了宝贵的资源和工具。