Microsoft は最近、グラフベースの検索強化生成システム GraphRAG を公式 Web サイトでオープンソース化しました。このシステムは、エンティティ ナレッジ グラフを構築することにより、検索、質問応答、要約、推論における大規模モデルの機能を大幅に強化します。ローカル テキスト フラグメントの取得に依存しすぎる従来の RAG システムの制限とは異なり、GraphRAG はデータ セット内の複雑な接続と相互作用をキャプチャしてグローバルな取得を実現でき、特に大規模なデータ セットの処理に優れています。その核心は、エンティティ ナレッジ グラフの構築とコミュニティの概要の生成という 2 つのステップにあり、コミュニティの概要を通じて重要な情報を効率的に抽出し、より包括的で正確な回答を生成できます。さらに注目すべき点は、GraphRAG のトークン需要が非常に低いことです。これは間違いなく、開発者にとってコスト面で大きな利点となります。

プロジェクト入口: https://top.aibase.com/tool/graphrag
外部データ ソースを扱う場合、従来の RAG システムはローカル テキスト フラグメントの取得に依存しすぎて、データ セット全体の全体像を捉えることができません。 GraphRAG は、エンティティ ナレッジ グラフを構築することで、大規模なモデルがテキスト内の複雑な接続や相互作用をより適切にキャプチャできるように支援し、それによってグローバルな検索機能を実現します。
GraphRAG の中核は、エンティティ ナレッジ グラフの構築とコミュニティ サマリーの生成の 2 つのステップで構成されます。コミュニティの要約を通じて、GraphRAG はデータセット全体から関連情報を抽出し、より包括的で正確な回答を生成できます。さらに、GraphRAG はトークンの需要が非常に低いため、開発者はコストを大幅に節約できます。
Microsoft は、100 万個のトークンと超複雑な構造を含むデータセットに対して GraphRAG の包括的なテストを実施しました。その結果、GraphRAG は包括性と多様性のテストにおいて Naive RAG などの手法を上回り、ポッドキャストの書き起こしやニュース記事のデータにおいてより効果的であることがわかりました。それらはすべて非常に高い水準を示しており、現在最高の RAG メソッドの 1 つです。
ハイライト:
- GraphRAG は、エンティティ ナレッジ グラフを構築することで、大規模モデルの検索、質問応答、要約、推論、その他の機能を強化し、特に大規模なデータ セットの処理に優れています。
- GraphRAG の中核には、エンティティ ナレッジ グラフの構築とコミュニティ サマリーの生成の 2 つのステップが含まれます。コミュニティ サマリーは、データ セット内の関連情報を抽出して、より包括的で正確な回答を生成するために使用されます。
- GraphRAG はトークンの需要が非常に低いため、開発者はコストを節約できます。これは包括的なテストで優れたパフォーマンスを発揮し、現在最も優れた RAG メソッドの 1 つです。
要約すると、GraphRAG は、大規模なデータセットの処理における優れたパフォーマンスと大幅なコスト上の利点により、検索強化生成の分野に新たなブレークスルーをもたらしました。これは注目され、さらなる研究に値します。そのオープンソースは、開発者に貴重なリソースとツールも提供します。