RAG QA GeneratorダウンロードRAG QA Generatorソースコードダウンロード

1。バックグラウンドの紹介

検索拡張生成（RAG）システムは、人工知能の分野で重要な開発方向になり、大規模な言語モデルの生成能力と外部の知識ベースからの正確な情報を組み合わせて、より正確で信頼できる回答を提供します。ただし、特に大量の非構造化ドキュメントを扱う場合、RAGシステムの知識ベースを構築および維持することは、常に時間と複雑なプロセスでした。最近、検索拡張生成（RAG）システムのための自動Q＆A（QA）生成ツールを開発しています。このプロジェクトの目的は、さまざまな形式のドキュメントを構造化された質問と回答ペアに変換し、それらをRAGシステムの知識ベースにシームレスに統合するプロセスを自動化することにより、上記の課題を軽減することを目的としています。

2。動機付けを提案します

このプロジェクトは、実際のRAGシステム開発で遭遇する課題に由来します。その中で、一般的な動機は次のとおりです。

効率の向上：従来の方法は効果的ではないか、時間がかかりすぎないため、大量のドキュメントをすばやく処理する方法が必要です。
品質の向上：大きなモデルのインテリジェンスを使用して、生成されたQ＆Aペアがテキストコンテンツに沿ってより沿って、知識ベースの品質を向上させることができることを願っています。
人間の介入を減らす：自動化されたプロセスを通じて、私たちは人間の参加を最小限に抑え、それによって人為的エラーと主観的なバイアスを減らすことを目指しています。
柔軟な適応：さまざまな形式でドキュメントを処理し、さまざまな分野の知識ニーズに適応できるシステムが必要です。
ユーザーフレンドリー：非技術的な人員でさえ、このシステムを簡単に使用して、知識ベースの構築と管理に参加できるはずです。

3。技術的なソリューション

特に、全体的な技術的ソリューションは、次の部分に要約できます。

ドキュメント処理：LangChain_Communityのdocument_loadersライブラリを使用して、ドキュメントをさまざまな形式（TXT、PDF、DOCX）で処理し、これに基づいて適切なサイズのテキストブロックに分割します。
AI駆動型QA生成：OpenAIのAPIを使用して（この場合はQWEN2.5-72Bモデルを使用）、高品質のQ＆Aペアを自動的に生成します。慎重に設計されたPROPTを使用して、生成されたQ＆Aペアがテキストコンテンツを中心としていることを確認してください。
ナレッジベース管理：新しいコレクションの作成または生成されたQAペアを保存するための既存のコレクションの選択を可能にする柔軟なコレクション管理システムを実装します。 RESTFUL APIを使用して、バックエンドデータベースと対話してデータを保存および取得します。
ユーザーインターフェイス：直感的でユーザーフレンドリーなWebインターフェイスは、Streamlitに基づいて構築されています。このインターフェイスは、ファイルのアップロード、QAペア生成プレビュー、ナレッジベース管理などの関数を提供し、プロセス全体をシンプルで明確にします。
進行状況追跡とエラー処理：詳細な進行状況ディスプレイとエラー処理メカニズムが実装され、ユーザーがリアルタイムで処理の進捗を理解し、問題が発生したときにタイムリーなフィードバックを受信できるようにします。
キャッシュの最適化：Streamlitの @St.Cache_Dataデコレータを使用して、特にQAペア生成中にパフォーマンスを最適化します。
セキュリティ上の考慮事項：一時的なファイルを使用して、ドキュメントを処理し、処理後すぐにドキュメントを処理し、データセキュリティを確保します。

4。インストールと使用

4.1前提条件

streamlit == 1.22.0
リクエスト== 2.31.0
openai == 0.28.0
langchain == 0.10.0
pymupdf == 1.22.5
pandas == 2.1.1
langchain_community == 0.1.0

4.2インストール手順

このリポジトリをクローンします：

 git clone https://github.com/wangxb96/RAG-QA-Generator.git
cd RAG-QA-Generator

依存関係をインストールします：

 pip install -r requirements.txt

APIキーとベースURLを構成します：

 base_url = 'http://your-api-url/v1/'
api_key = 'your-api-key'
headers = {"Authorization": f"Bearer {api_key}"}

client = OpenAI(
    api_key="your-openai-api-key",
    base_url="http://your-openai-api-url/v1",
)

4.3アプリケーションを実行します

RimeLitアプリケーションを開始します：

 streamlit run AutoQAG.py

ブラウザを開き、http：// localhost：8501にアクセスします。

4.4ページの概要

アプリケーションインターフェイスは、2つの主要な部分に分割されます。

左サイドバー：アクションを選択するために使用されます（ファイルをアップロードするか、知識ベースを管理します）
メインインターフェイス：現在の操作の詳細なコンテンツとインタラクティブな要素を表示する

ぼろきれ管理ホームページ

4.5ファイルをアップロードします

左サイドバーで「ファイルのアップロード」操作を選択します。
メインインターフェイスでは、ファイルアップロード装置を使用して、非構造化ファイル（TXT、PDF、およびDOCX形式をサポートします）をアップロードします。
ファイルのアップロードが成功したら、「プロセスファイルとQAペアの生成」ボタンをクリックします。
システムはファイルを処理し、QAペアを生成して、進行状況バーと結果の概要を表示します。
世代が完了した後、最初の3つのQAペアをプレビューできます。

ファイルアップロードとQAペア生成

更新されたバージョンは、複数のファイルアップロードをサポートしています

生成された最初の3つのQAペアをプレビューします

4.6管理知識ベース

左側のサイドバーで、ナレッジベースアクションの管理を選択します。
既存のコレクションまたは新しいコレクションを挿入します。
- 既存のコレクションを挿入します：
  - ドロップダウンリストから既存のコレクションを選択します。
- 新しいコレクションを作成します：
  - 新しいコレクションの名前を入力してください。
  - コレクションの容量を設定します（1〜1000）。
  - [新しいコレクションの作成]ボタンをクリックします。

既存の知識ベースを挿入します

新しく作成されたナレッジベースを挿入します

4.7 QAペアをコレクションに挿入します

ファイルがアップロードされ、QAペアが生成されていることを確認してください。
ナレッジベース管理インターフェイスで、コレクションを選択または作成します。
[選択したコレクションにQAペアを挿入]ボタンをクリックします。
システムには、挿入の進行状況と結果の要約が表示されます。

QAなしで挿入できません

ナレッジベースに正常に挿入されました

4.8コレクションまたはアップロードコレクションをダウンロードします

ナレッジベース管理インターフェイスで、コレクションを選択します。
[選択したコレクションのコンテンツをダウンロード]ボタンをクリックします。
システムは、得られたチャンクの数を表示します。
「JSONファイルとしてコレクションコンテンツをダウンロードする」をクリックして、対応するコレクションをダウンロードします

コレクションをダウンロードします

JSONファイルをコレクションにアップロードします

5。テクノロジーの実現

5.1構成と初期化

まず、必要な構成と初期化を設定します。

 base_url = 'your_knowledgebase_base_url'
api_key = 'your_knowledgebase_api_key'
headers = { "Authorization" : f"Bearer { api_key } " }

client = OpenAI (
    api_key = "your_llm_api_key" ,
    base_url = "your_llm_base_url" ,
)

このセクションでは、APIの基本的なURLと認証情報、およびOpenAIクライアントの構成を設定します。

5.2コア関数

5.2.1テキスト処理と質問と回答

get_completion ：モデルを呼び出して応答を生成します。
Generate_qa_pairs_with_progress ：Q＆Aペアを生成し、進行状況を表示します。

5.2.1.1 get_completion（prompt、model = "qwen25-72b"）

機能：モデルの応答を取得します。

パラメーター：

prompt ：モデルに送信するためのテキストプロンプト。
model ：使用されるモデル名、デフォルトは「QWEN25-72B」です。

返品：モデルによって生成された応答コンテンツを返します。 APIを呼び出すときにエラーが発生した場合、返されるものはありません。

 def get_completion ( prompt , model = "qwen25-72b" ):
    """获取模型的响应"""
    try :
        response = client . chat . completions . create (
            model = model ,
            messages = [{ "role" : "user" , "content" : prompt }],
            temperature = 0 ,
        )
        return response . choices [ 0 ]. message . content
    except Exception as e :
        st . error ( f"调用API时发生错误: { e } " )
        return None

5.2.1.2 Generate_qa_pairs_with_progress（text_chunks）

関数：この関数は、テキストブロックに基づいてQAペアを生成します（ここでは、より良いQA生成戦略を設計し、PROPTを調整することでより良い生成を達成できます）。

パラメーター：

text_chunks ：質問を生成してペアに答えるためのテキストブロックのリスト。返品：生成された質問と回答のリストを返します。

 def generate_qa_pairs_with_progress ( text_chunks ):
    """生成问答对并显示进度"""
    qa_pairs = []
    progress_bar = st . progress ( 0 )
    for i , chunk in enumerate ( text_chunks ):
        prompt = f"""基于以下给定的文本，生成一组高质量的问答对。请遵循以下指南：
        
                1. 问题部分：
                - 为同一个主题创建尽可能多的（如K个）不同表述的问题，确保问题的多样性。
                - 每个问题应考虑用户可能的多种问法，例如：
                - 直接询问（如“什么是...？”）
                - 请求确认（如“是否可以说...？”）
                - 寻求解释（如“请解释一下...的含义。”）
                - 假设性问题（如“如果...会怎样？”）
                - 例子请求（如“能否举个例子说明...？”）
                - 问题应涵盖文本中的关键信息、主要概念和细节，确保不遗漏重要内容。

                2. 答案部分：
                - 提供一个全面、信息丰富的答案，涵盖问题的所有可能角度，确保逻辑连贯。
                - 答案应直接基于给定文本，确保准确性和一致性。
                - 包含相关的细节，如日期、名称、职位等具体信息，必要时提供背景信息以增强理解。

                3. 格式：
                - 使用 "Q:" 标记问题集合的开始，所有问题应在一个段落内，问题之间用空格分隔。
                - 使用 "A:" 标记答案的开始，答案应清晰分段，便于阅读。
                - 问答对之间用两个空行分隔，以提高可读性。

                4. 内容要求：
                - 确保问答对紧密围绕文本主题，避免偏离主题。
                - 避免添加文本中未提及的信息，确保信息的真实性。
                - 如果文本信息不足以回答某个方面，可以在答案中说明 "根据给定信息无法确定"，并尽量提供相关的上下文。

                5. 示例结构（仅供参考，实际内容应基于给定文本）：
                
            给定文本：
            { chunk }

            请基于这个文本生成问答对。
            """
        response = get_completion ( prompt )
        if response :
            try :
                parts = response . split ( "A:" , 1 )
                if len ( parts ) == 2 :
                    question = parts [ 0 ]. replace ( "Q:" , "" ). strip ()
                    answer = parts [ 1 ]. strip ()
                    qa_pairs . append ({ "question" : question , "answer" : answer })
                else :
                    st . warning ( f"无法解析响应: { response } " )
            except Exception as e :
                st . warning ( f"处理响应时出错: { str ( e ) } " )
        
        progress = ( i + 1 ) / len ( text_chunks )
        progress_bar . progress ( progress )
    
    return qa_pairs

5.2.2 API要求処理

API_REQUEST ：一般的なAPIリクエストを処理します。
create_collection ：新しいコレクションを作成します。
create_chunk ：データブロックを作成します。
List_Chunks ：コレクション内のデータブロックをリストします。
get_chunk_details ：特定のデータブロックの詳細を取得します。
fetch_all_chunks_from_collection ：コレクションからすべてのデータブロックを取得します。

5.2.2.1 API_REQUEST（Method、URL、** kWargs）

機能：一般的なAPIリクエストを処理します。

パラメーター：

method ：HTTPリクエストメソッド（GET、投稿など）。
url ：要求されたURL。
kwargs ：その他の要求パラメーター（ヘッダー、JSONなど）。返品：API応答の「データ」部分を返します。リクエストが失敗した場合、エラーメッセージが表示され、返されません。

 def api_request ( method , url , ** kwargs ):
    try :
        response = requests . request ( method , url , headers = headers , ** kwargs )
        response . raise_for_status ()
        return response . json (). get ( 'data' )
    except requests . RequestException as e :
        st . error ( f"API请求失败: { e } " )
        return None

5.2.2.2 create_collection（name、embedded_model_id、容量）

機能：新しいコレクションを作成します。

パラメーター：

name ：コレクションの名前。
embedding_model_id ：埋め込まれたモデルのID。
capacity ：コレクションの容量。返品：作成されたコレクションの応答データを返します。

 def create_collection ( name , embedding_model_id , capacity ):
    data = {
        "name" : name ,
        "embedding_model_id" : embedding_model_id ,
        "capacity" : capacity
    }
    return api_request ( "POST" , f" { base_url } collections" , json = data )

5.2.2.3 create_chunk（collection_id、content）

関数：データブロックを作成します。

パラメーター：

collection_id ：コレクションのID。
content ：データブロックのコンテンツ。返品：作成されたデータブロックの応答データを返します。リクエストが失敗した場合、エラーメッセージが表示され、返されません。

 def create_chunk ( collection_id , content ):
    data = {
        "collection_id" : collection_id ,
        "content" : content
    }
    endpoint = f" { base_url } collections/ { collection_id } /chunks"
    try :
        response = requests . post ( endpoint , headers = headers , json = data )
        response . raise_for_status ()
        return response . json ()[ 'data' ]
    except requests . RequestException as e :
        st . error ( f"创建chunk失败: { e } " )
        return None

5.2.2.4 list_chunks（collection_id、limit = 20、after = none）

関数：指定されたコレクションのデータブロックをリストします。

パラメーター：

collection_id ：コレクションのID。
limit ：返されるデータブロックの数は限られており、デフォルトは20です。
after ：ページングに使用され、開始するデータブロックを指定します。返品：データブロックのリストを返します。要求が失敗した場合、エラーメッセージが表示され、空のリストが返されます。

 def list_chunks ( collection_id , limit = 20 , after = None ):
    url = f" { base_url } collections/ { collection_id } /chunks"   
    params = {
        "limit" : limit ,
        "order" : "desc"
    }
    if after :
        params [ "after" ] = after

    response = api_request ( "GET" , url , params = params )
    if response is not None :
        return response
    else :
        st . error ( "列出 chunks 失败。" )
        return []

5.2.2.5 get_chunk_details（chunk_id、collection_id）

機能：特定のデータブロックに関する詳細情報を取得します。

パラメーター：

chunk_id ：データブロックのID。
collection_id ：コレクションのID。返品：データブロックの詳細を返します。リクエストが失敗した場合、エラーメッセージが表示され、返されません。

 def get_chunk_details ( chunk_id , collection_id ):
    url = f" { base_url } collections/ { collection_id } /chunks/ { chunk_id } " 
    response = api_request ( "GET" , url )
    if response is not None :
        return response
    else :
        st . error ( "获取 chunk 详细信息失败。" )
        return None

5.2.2.6 fetch_all_chunks_from_collection（collection_id）

関数：指定されたコレクションからすべてのデータブロックを取得します。

パラメーター：

collection_id ：コレクションのID。返品：すべてのデータブロックの詳細情報のリストを返します。

 def fetch_all_chunks_from_collection ( collection_id ):
    all_chunks = []
    after = None

    while True :
        chunk_list = list_chunks ( collection_id , after = after )
        if not chunk_list :
            break
        for chunk in chunk_list :
            chunk_id = chunk [ 'chunk_id' ]
            chunk_details = get_chunk_details ( chunk_id , collection_id )
            if chunk_details :
                all_chunks . append ( chunk_details )
        if len ( chunk_list ) < 20 :
            break
        after = chunk_list [ - 1 ][ 'chunk_id' ]
    return all_chunks

5.2.3ファイル処理

load_single_document ：単一のドキュメントを読み込みます。
process_file ：アップロードされたファイルを処理し、テキストブロックを生成します。
Process_files ：複数のアップロードされたファイルを処理し、テキストブロックを生成します。

5.2.3.1 load_single_document（file_path：str） - > list [document]

関数：単一のドキュメントをロードします。パラメーター：

file_path ：ドキュメントへのファイルパス。返品：ロードされたドキュメントリストを返します。ファイル拡張機能がサポートされていない場合、バリューエラーがスローされます。

 def load_single_document ( file_path : str ) -> List [ Document ]:
    ext = "." + file_path . rsplit ( "." , 1 )[ - 1 ]
    if ext in LOADER_MAPPING :
        loader_class , loader_args = LOADER_MAPPING [ ext ]
        loader = loader_class ( file_path , ** loader_args )
        return loader . load ()
    raise ValueError ( f"Unsupported file extension ' { ext } '" )

5.2.3.2 process_file（uploaded_file）

関数：アップロードされたファイルを処理し、テキストブロックを生成します。パラメーター：

uploaded_file ：アップロードされたファイルオブジェクト。返品：生成されたテキストブロックリストを返します。ファイル処理が失敗した場合、空のリストが返されます。

 def process_file ( uploaded_file ):
    with tempfile . NamedTemporaryFile ( delete = False , suffix = os . path . splitext ( uploaded_file . name )[ 1 ]) as tmp_file :
        tmp_file . write ( uploaded_file . getvalue ())
        tmp_file_path = tmp_file . name
    try :
        documents = load_single_document ( tmp_file_path )
        if not documents :
            st . error ( "文件处理失败，请检查文件格式是否正确。" )
            return []

        text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 2000 , chunk_overlap = 500 )
        text_chunks = text_splitter . split_documents ( documents )
        return text_chunks
    except Exception as e :
        st . error ( f"处理文件时发生错误: { e } " )
        return []
    finally :
        os . unlink ( tmp_file_path )

5.2.3.4 process_files（uploaded_files）

関数：複数のアップロードされたファイルを処理し、テキストブロックを生成します。パラメーター：

uploaded_files ：アップロードされたファイルオブジェクトのリスト。返品：生成されたすべてのテキストブロックのリストを返します。

 def process_files ( uploaded_files ):
    all_text_chunks = []
    for uploaded_file in uploaded_files :
        with tempfile . NamedTemporaryFile ( delete = False , suffix = os . path . splitext ( uploaded_file . name )[ 1 ]) as tmp_file :
            tmp_file . write ( uploaded_file . getvalue ())
            tmp_file_path = tmp_file . name
        try :
            documents = load_single_document ( tmp_file_path )
            if not documents :
                st . error ( f"文件 { uploaded_file . name } 处理失败，请检查文件格式是否正确。" )
                continue

            text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 2000 , chunk_overlap = 500 )
            text_chunks = text_splitter . split_documents ( documents )
            all_text_chunks . extend ( text_chunks )
        except Exception as e :
            st . error ( f"处理文件 { uploaded_file . name } 时发生错误: { e } " )
        finally :
            os . unlink ( tmp_file_path )
    
    return all_text_chunks

5.2.4データベース管理の質問と回答

INSERT_QA_PAIRS_TO_DATABASE ：Q＆Aペアをデータベースに挿入します。

5.2.4.1 insert_qa_pairs_to_database（collection_id）

機能：Q＆Aペアをデータベースに挿入します。

パラメーター：

collection_id ：Q＆Aペアを挿入するコレクションID。返品：正常に挿入されたQ＆Aペアの数と失敗したペアの数を返します。

 def insert_qa_pairs_to_database ( collection_id ):
    progress_bar = st . progress ( 0 )
    status_text = st . empty ()
    success_count = 0
    fail_count = 0
    for i , qa_pair in enumerate ( st . session_state . qa_pairs ):
        try :
            if "question" in qa_pair and "answer" in qa_pair and "chunk" in qa_pair :
                content = f"问题： { qa_pair [ 'question' ] } n答案： { qa_pair [ 'answer' ] } n原文： { qa_pair [ 'chunk' ] } "
                if len ( content ) > 4000 :
                    content = content [: 4000 ]
                if create_chunk ( collection_id = collection_id , content = content ):
                    success_count += 1
                else :
                    fail_count += 1
                    st . warning ( f"插入QA对 { i + 1 } 失败" )
            else :
                fail_count += 1
                st . warning ( f"QA对 { i + 1 } 格式无效" )
        except Exception as e :
            st . error ( f"插入QA对 { i + 1 } 时发生错误: { str ( e ) } " )
            fail_count += 1
        
        progress = ( i + 1 ) / len ( st . session_state . qa_pairs )
        progress_bar . progress ( progress )
        status_text . text ( f"进度: { progress :.2% } | 成功: { success_count } | 失败: { fail_count } " )

    return success_count , fail_count

5.2.5データのダウンロードとアップロード

download_chunks_as_json ：データブロックをJSONファイルとしてダウンロードします。
upload_json_chunks ：jsonファイルから指定されたコレクションにデータブロックをアップロードします。

5.2.5.1 download_chunks_as_json（chunks、collection_name）

関数：データブロックをJSONファイルにダウンロードし、それらを明確にフォーマットします。

パラメーター：

chunks ：データブロックのリスト。
collection_name ：ダウンロードされたファイルの名前を生成するために使用されるコレクションの名前。返品：返品値なし、ダウンロードボタンを直接提供します。

 def download_chunks_as_json ( chunks , collection_name ):
    if chunks :
        json_data = { "chunks" : []}
        for chunk in chunks :
            json_data [ "chunks" ]. append ({
                "chunk_id" : chunk . get ( "chunk_id" ),
                "record_id" : chunk . get ( "record_id" ),
                "collection_id" : chunk . get ( "collection_id" ),
                "content" : chunk . get ( "content" ),
                "num_tokens" : chunk . get ( "num_tokens" ),
                "metadata" : chunk . get ( "metadata" , {}),
                "updated_timestamp" : chunk . get ( "updated_timestamp" ),
                "created_timestamp" : chunk . get ( "created_timestamp" ),
            })
        
        json_str = json . dumps ( json_data , ensure_ascii = False , indent = 4 )
        
        st . download_button (
            label = "下载集合内容为 JSON 文件" ,
            data = json_str ,
            file_name = f" { collection_name } .json" ,
            mime = "application/json"
        )

5.2.5.2 upload_json_chunks（uploaded_json_file、collection_id）

関数：JSONファイルから指定されたコレクションにデータブロックをアップロードします。

パラメーター：

uploaded_json_file ：jsonファイルオブジェクトをアップロードしました。
collection_id ：アップロードするデータブロックの収集ID。返品：返品値なし、インターフェイスにアップロードの進行状況と結果を直接表示します。

 def upload_json_chunks ( uploaded_json_file , collection_id ):
    try :
        data = json . load ( uploaded_json_file )
        
        if 'chunks' not in data :
            st . error ( "JSON 文件中缺少 'chunks' 键。" )
            return
        
        chunks = data [ 'chunks' ]
        total_records = len ( chunks )
        records_per_collection = 1000
        num_collections = math . ceil ( total_records / records_per_collection )

        st . write ( f"总记录数: { total_records } " )
        st . write ( f"每个集合的记录数: { records_per_collection } " )
        st . write ( f"需要创建的集合数: { num_collections } " )

        for i in range ( num_collections ):
            st . write ( f" n导入集合 { i + 1 } / { num_collections } ..." )
            start_index = i * records_per_collection
            end_index = min (( i + 1 ) * records_per_collection , total_records )
            
            progress_bar = st . progress ( 0 )
            for j , chunk in enumerate ( chunks [ start_index : end_index ]):
                if 'content' in chunk :
                    content = chunk [ 'content' ]
                    try :
                        create_chunk (
                            collection_id = collection_id ,
                            content = content
                        )
                    except Exception as e :
                        st . error ( f"创建 chunk 时出错: { str ( e ) } " )
                        break
                else :
                    st . warning ( f"第 { start_index + j + 1 } 条记录缺少 'content' 键。" )
                    continue

                progress = ( j + 1 ) / ( end_index - start_index )
                progress_bar . progress ( progress )

        st . success ( "所有数据导入完成。" )
    except Exception as e :
        st . error ( f"上传 JSON 文件时发生错误: { str ( e ) } " )

5.3メインページ構造

メインインターフェイス構造は、メイン（）関数で定義されています。

 def main ():
    st . set_page_config ( page_title = "RAG管理员界面" , layout = "wide" )
    st . title ( "RAG管理员界面" )

    # 侧边栏
    st . sidebar . title ( "操作面板" )
    operation = st . sidebar . radio ( "选择操作" , [ "上传文件" , "管理知识库" ])

    if operation == "上传文件" :
        # 文件上传和处理逻辑
        ...
    elif operation == "管理知识库" :
        # 知识库管理逻辑
        ...

if __name__ == "__main__" :
    main ()

5.4ファイルのアップロードと処理

 if operation == "上传文件" :
        st . header ( "文件上传与QA对生成" )
        uploaded_files = st . file_uploader ( "上传非结构化文件" , type = [ "txt" , "pdf" , "docx" ], accept_multiple_files = True )
        if uploaded_files :
            st . success ( "文件上传成功！" )
            
            if st . button ( "处理文件并生成QA对" ):
                with st . spinner ( "正在处理文件..." ):
                    text_chunks = process_files ( uploaded_files )
                    if not text_chunks :
                        st . error ( "文件处理失败，请检查文件格式是否正确。" )
                        return
                    st . info ( f"文件已分割成 { len ( text_chunks ) } 个文本段" )

                with st . spinner ( "正在生成QA对..." ):
                    st . session_state . qa_pairs = generate_qa_pairs_with_progress ( text_chunks )
                    st . success ( f"已生成 { len ( st . session_state . qa_pairs ) } 个QA对" )

                if st . session_state . qa_pairs :
                    st . subheader ( "前3个QA对预览" )
                    cols = st . columns ( 3 )
                    for i , qa in enumerate ( st . session_state . qa_pairs [: 3 ]):
                        with st . expander ( f"**QA对 { i + 1 } **" , expanded = True ):
                            st . markdown ( "**问题:**" )
                            st . markdown ( qa [ 'question' ])
                            st . markdown ( "**答案:**" )
                            st . markdown ( qa [ 'answer' ])
                            st . markdown ( "**原文:**" )
                            st . markdown ( qa [ 'chunk' ])
                        st . markdown ( "---" ) 
        else :
            st . warning ( "请上传文件。" )

5.5知識ベース管理

 elif operation == "管理知识库" :
        st . header ( "知识库管理" )
        option = st . radio ( "选择操作" , ( "创建新Collection" , "插入现有Collection" , "下载Collection" , "上传JSON文件" ))
        
        if option == "插入现有Collection" :
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if st . button ( "插入QA对到选定的Collection" ):
                    if hasattr ( st . session_state , 'qa_pairs' ) and st . session_state . qa_pairs :
                        with st . spinner ( "正在插入QA对..." ):
                            success_count , fail_count = insert_qa_pairs_to_database ( selected_id )
                            st . success ( f"数据插入完成！总计: { len ( st . session_state . qa_pairs ) } | 成功: { success_count } | 失败: { fail_count } " )
                    else :
                        st . warning ( "没有可用的QA对。请先上传文件并生成QA对。" )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

        elif option == "创建新Collection" :
            new_collection_name = st . text_input ( "输入新Collection名称" )
            capacity = st . number_input ( "设置Collection容量" , min_value = 1 , max_value = 1000 , value = 1000 )
            if st . button ( "创建新Collection" ):
                with st . spinner ( "正在创建新Collection..." ):
                    new_collection = create_collection (
                        name = new_collection_name ,
                        embedding_model_id = embedding ,  # 这里可以替换为实际的模型ID
                        capacity = capacity
                    )
                    if new_collection :
                        st . success ( f"新Collection创建成功，ID: { new_collection [ 'collection_id' ] } " )
                        # 立即更新 collections 列表
                        st . session_state . collections = api_request ( "GET" , f" { base_url } collections" )
                        st . rerun ()
                    else :
                        st . error ( "创建新Collection失败" )

        elif option == "下载Collection" :
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if st . button ( "下载选定Collection的内容" ):
                    with st . spinner ( "正在获取集合内容..." ):
                        chunks = fetch_all_chunks_from_collection ( selected_id )  # Pass the API key
                        if chunks :
                            download_chunks_as_json ( chunks , selected_collection )  # Pass the collection name
                            st . success ( f"成功获取 { len ( chunks ) } 个 chunk。" )
                        else :
                            st . error ( "未能获取集合内容。" )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

        elif option == "上传JSON文件" :
            uploaded_json_file = st . file_uploader ( "选择一个 JSON 文件" , type = [ "json" ])
            
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if uploaded_json_file is not None :
                    if st . button ( "上传并插入到选定的Collection" ):
                        with st . spinner ( "正在上传 JSON 文件并插入数据..." ):
                            upload_json_chunks ( uploaded_json_file , selected_id )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

vi。その他の問題

6.1ノート

使用前にAPIキーと基礎となるURLが正しく構成されていることを確認してください。
大規模なファイル処理とQAペアの生成には時間がかかる場合があります。我慢してください。
多数のQAペアをコレクションに挿入するのに長い時間がかかる場合があり、システムは進捗状況を表示します。

6.2エラー処理

API呼び出しエラーまたはファイル処理エラーが発生した場合、システムはインターフェイスに対応するエラーメッセージが表示されます。
挿入に失敗したQAペアの場合、警告メッセージが表示されます。

6.3パフォーマンスに関する考慮事項

このアプリケーションでは、特にQAペア生成プロセス中に、パフォーマンスを最適化するために、Streamlitのキャッシュメカニズムを使用します。
大きなファイルまたは大規模なQAペアの場合、処理時間が長くなる場合があります。

6.4セキュリティ

APIキーやその他の機密情報を適切に保持してください。
アップロードされたファイルは、処理後に一時的に保存および削除されます。

7。ありがとう

このプロジェクトは、北京ノーマル大学のZhuhaiキャンパスの人工知能および将来のネットワークセンター、北京普通大学のZhuhaiキャンパスのインテリジェントクロスコンピューティングセンター、および教育省の工学研究センター、Big Data Cloud-Border Intelligence Collaboration of The Ministry、Beijing Normal Universityのコラボレーションによって強力にサポートされています。

拡大する