このプロジェクトは、Langchain、Openai API、およびThe Rag(回収された生成)コンセプトを活用する会話エージェントです。エージェントは、長いPDFドキュメントを読み取り、テキスト、画像、テーブルなどのさまざまなコンポーネントを抽出し、ユーザーとの会話中に効率的な検索のためにベクトルデータベースに保存するように設計されています。
PDF処理:エージェントは、長いPDFドキュメントから情報を解析および抽出することができます。
マルチモーダル抽出:包括的な理解のために、PDFからテキスト、画像、テーブルを抽出します。
ベクトルデータベース:ベクトルデータベースを使用して、情報を効率的に保存および取得します。
会話AI :ユーザーとの会話の相互作用を強化するために、RAGの概念を実装します。
非構造化を使用して、ドキュメント(PDF)から画像、テキスト、テーブルを解析します。
Chromaを備えたマルチベクトルレトリバーを使用して、RAWテキストと画像を取得の要約とともに保存します。
画像の要約(検索用)の両方にGPT-4Vを使用し、画像とテキスト(またはテーブル)の参加レビューからの最終的な回答統合を使用します。
langchain < - Langchainのインストールを理解するためにこちらをご覧ください
OpenAI API < - OpenAI APIのセットアップと使用の手順。
Chroma DB < - ベクトルデータベースのセットアップと使用の手順。
ソースPDFへのパスを提供します
ニーズに応じてprompt_textを変更します。
クエリラインの質問を交換してください。
エージェントは、インテリジェントな応答のために保存された情報を使用します。
検索
検索は、画像の要約とテキストチャンクとの類似性に基づいて実行されます。競合するテキストチャンクがある場合、画像の取得が失敗する可能性があるため、これには慎重に検討する必要があります。これを緩和するために、私はより大きな(4Kトークン)テキストチャンクを生成し、検索のためにそれらを要約します。
画像サイズ
回答の統合の品質は、予想どおり、画像サイズに敏感であるように見えます。これをより注意深くテストするために、すぐにEvalsを行います。
このプロジェクトは、MITライセンスの下でライセンスされています。