RAG Retrieval Augmented Generationダウンロード - RAG Retrieval Augmented Generationソースコードのダウンロード

RAG Retrieval Augmented Generation

その他のソースコード

1.0.0

ダウンロード

RAG-検索拡張生成

watsonxを使用して、ぼろきれアプローチを使用して自然言語の質問に応答します

このノートブックには、watsonx.aiで検索された再生世代のサポートを示す手順とコードが含まれています。データ検索、知識ベースの構築とクエリ、モデルテストのコマンドを導入します。

客観的

LLMモデル、Langchain、Milvusを使用して、検索拡張生成（RAG）システムを作成します。これにより、大規模な言語モデル（LLM）を微調整することなく、ドキュメント（トレーニングデータに含まれていなかった）について質問することができます。 RAGを使用する場合、質問が与えられた場合、最初に検索手順を実行して、これらのドキュメントがインデックス化されたベクトルデータベースである特別なデータベースから関連するドキュメントを取得します。

検索拡張生成（RAG）は、自然言語の知識ベースを照会するなど、情報の事実のリコールを必要とする多くのユースケースを解き放つことができる多用途のパターンです。

定義：

LLM-大規模な言語モデル
LANGCHAIN -LLMSを使用してアプリケーションの作成を簡素化するために設計されたフレームワーク
ベクトルデータベース - 高次元ベクトルを介してデータを整理するデータベース
Milvus -Vectorデータベース
RAG-検索拡張生成（ぼろきれの詳細を参照）

検索拡張ジェネレーション（RAG）システムとは何ですか？

大規模な言語モデル（LLMS）は、コンテキストを理解し、要約、Q＆Aなど、さまざまなNLPタスクに正確な回答を提供する能力を証明しています。トレーニングを受けた情報に関する質問に対して非常に良い回答を提供することはできますが、トピックが「知らない」情報に関するトピックである場合、トレーニングデータに含まれていない場合、彼らは幻覚を起こす傾向があります。検索拡張生成は、外部リソースとLLMを組み合わせます。したがって、ぼろきれの主な2つのコンポーネントは、レトリバーとジェネレーターです。

レトリーバー部分は、データをエンコードできるシステムとして説明できます。これにより、関連する部分を簡単に取得できます。エンコーディングは、テキスト埋め込みを使用して行われます。つまり、情報のベクトル表現を作成するためにトレーニングされたモデルです。レトリバーを実装するための最良のオプションは、ベクトルデータベースです。 Vectorデータベースとして、オープンソースまたは商用製品の両方に複数のオプションがあります。 Chromadb、Mevius、Faiss、Pinecone、Weaviateの例はほとんどありません。このノートブックのオプションは、ChromadB（永続的）のローカルインスタンスです。

発電機部の場合、明らかなオプションはLLMです。このノートブックでは、Kaggle Modelsコレクションの量子化されたLlama V2モデルを使用します。

レトリバーとジェネレーターのオーケストレーションは、Langchainを使用して行われます。 Langchainからの特殊な機能により、1つのコードで受信機を作成することができます。

最も単純な形式では、RAGには3つのステップが必要です。

インデックスナレッジベースパッセージ（1回）
知識ベースから関連するパッセージを取得する（すべてのユーザークエリに対して）
検索された通過を大規模な言語モデルに供給して応答を生成します（ユーザークエリごとに）

データ：

知識ベース：

ウィキペディアからの690,000語のクリーニングされたテキストの価値。

データセットのトレーニングとテスト：

3つの質問ファイルがあります。1つは学生の各年に1つあります：S08、S09、およびS10。

「questionanswerpairs.txt」ファイルには、質問と回答の両方が含まれています。このファイルの列は次のとおりです。

articletitleは、最初に質問と回答が来たウィキペディアの記事の名前です。
質問は質問です。
答えは答えです。
Fromquestionerの難易度は、質問用語に与えられた質問の処方された難易度です。
Fromomanswererは、質問を評価して回答した個人が割り当てる難易度の評価です。これは、フィールド4の難易度とは異なる場合があります。
articlefileは、関連する記事を含むファイルの名前です。

貧弱であると判断された質問は、このデータセットから捨てられました。

多くの場合、同じ質問を持つ複数の行があります。これは、それらの質問が複数の個人によって回答された場合に表示されます。 https://www.kaggle.com/rtatman/questionanswer-dataset

拡大する

追加情報

バージョン 1.0.0
タイプその他のソースコード
更新時間 2025-05-26
サイズ 8.85MB
から Github

RAG Retrieval Augmented Generation

RAG-検索拡張生成

watsonxを使用して、ぼろきれアプローチを使用して自然言語の質問に応答します

客観的

定義：

検索拡張ジェネレーション（RAG）システムとは何ですか？

データ：

知識ベース：

データセットのトレーニングとテスト：

GitHub sgrebnov/cordova plugin background download

Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Retrieval based Voice Conversion WebUI

ジェネレーションゼロの挑戦 CODEX

ジェネレーションゼロ – アルプスの暴動

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express