Download RAG QA Generator - download de código fonte RAG QA Generator

1. Introdução de fundo

Os sistemas de geração aumentada de recuperação (RAG) tornaram-se uma importante direção de desenvolvimento no campo da inteligência artificial, combinando os recursos de geração de modelos de linguagem em larga escala com informações precisas de bases de conhecimento externas para fornecer respostas mais precisas e confiáveis. No entanto, a construção e a manutenção de uma base de conhecimento para sistemas de pano sempre foi um processo demorado e complexo, especialmente quando se lida com grandes quantidades de documentos não estruturados. Recentemente, estamos desenvolvendo uma ferramenta de geração de perguntas e respostas automatizada (QA) para um sistema de geração de aumento de recuperação (RAG). Este projeto tem como objetivo aliviar os desafios acima, automatizando o processo para converter documentos em vários formatos em pares de perguntas e respostas estruturadas e integrá -los perfeitamente à base de conhecimento do sistema de pano.

2. Proponha motivação

Este projeto se origina de desafios encontrados no desenvolvimento real do sistema de trapos, entre os quais as motivações gerais são as seguintes:

Melhorar a eficiência : os métodos tradicionais não são eficazes ou demoram muito tempo, e precisamos de uma maneira de processar rapidamente grandes quantidades de documentos.
Melhorar a qualidade : usando a inteligência do grande modelo, esperamos que os pares de perguntas e respostas gerados possam estar mais alinhados com o conteúdo do texto e melhorar a qualidade da base de conhecimento.
Reduzir a intervenção humana : através de processos automatizados, pretendemos minimizar a participação humana, reduzindo assim o erro humano e o viés subjetivo.
Adaptação flexível : precisamos de um sistema que possa lidar com documentos em vários formatos e nos adaptar às necessidades de conhecimento em diferentes campos.
Amigável : mesmo o pessoal não técnico deve ser capaz de usar facilmente esse sistema e participar da construção e gerenciamento da base de conhecimento.

3. Solução técnica

Em particular, nossa solução técnica geral pode ser resumida nas seguintes partes:

Processamento de documentos : use a Biblioteca Document_loaders de Langchain_Community para processar documentos em vários formatos (TXT, PDF, DOCX) e divida -os em blocos de texto de tamanho apropriado com base nisso.
Geração de controle de qualidade orientada pela IA : use a API do OpenAI (usando o modelo QWEN2.5-72B nesse caso) para gerar automaticamente pares de perguntas e respostas de alta qualidade. Com um Propt cuidadosamente projetado, verifique se os pares de perguntas e respostas gerados estão intimamente centrados no conteúdo do texto.
Gerenciamento da base de conhecimento : implementa um sistema flexível de gerenciamento de coleções que permite a criação de novas coleções ou a seleção de coleções existentes para armazenar pares de controle de qualidade gerados. Use a API RESTful para interagir com o banco de dados de back -end para armazenar e recuperar dados.
Interface do usuário : uma interface da Web intuitiva e fácil de usar é construída com base no streamlit. Essa interface fornece funções como upload de arquivos, visualização de geração de pares de controle de qualidade, gerenciamento da base de conhecimento etc., tornando todo o processo simples e claro.
Rastreamento de progresso e manuseio de erros : Um mecanismo detalhado de exibição de progresso e manuseio de erros é implementado para garantir que os usuários possam entender o progresso do processamento em tempo real e receber feedback oportuna quando ocorrerem problemas.
Otimização do cache : use o Decorador do STRIL) @St.Cache_Data para otimizar o desempenho, especialmente durante a geração de pares de controle de qualidade.
Considerações de segurança : use arquivos temporários para processar documentos carregados e excluí -los imediatamente após o processamento para garantir a segurança dos dados.

4. Instalação e uso

4.1 Pré -requisitos

streamlit == 1.22.0
solicitações == 2.31.0
OpenAI == 0.28.0
Langchain == 0.10.0
Pymupdf == 1.22.5
pandas == 2.1.1
Langchain_Community == 0.1.0

4.2 Etapas de instalação

Clone este repositório:

 git clone https://github.com/wangxb96/RAG-QA-Generator.git
cd RAG-QA-Generator

Instale dependências:

 pip install -r requirements.txt

Configure a chave da API e o URL base:

 base_url = 'http://your-api-url/v1/'
api_key = 'your-api-key'
headers = {"Authorization": f"Bearer {api_key}"}

client = OpenAI(
    api_key="your-openai-api-key",
    base_url="http://your-openai-api-url/v1",
)

4.3 Execute o aplicativo

Inicie o aplicativo StreamLit:

 streamlit run AutoQAG.py

Abra o navegador e visite http: // localhost: 8501.

4.4 Visão geral da página

A interface do aplicativo é dividida em duas partes principais:

Barra lateral esquerda : usado para selecionar ações (carregar arquivos ou gerenciar a base de conhecimento)
Interface principal : exibir o conteúdo detalhado e elementos interativos da operação atual

Página inicial do gerenciamento de trapos

4.5 Arquivos de upload

Selecione a operação "Arquivo de upload" na barra lateral esquerda.
Na interface principal, use o uploader de arquivo para fazer upload de arquivos não estruturados (suporta formatos TXT, PDF e DOCX).
Depois que o upload do arquivo for bem -sucedido, clique no botão "Processar arquivo e gerar par de controle de qualidade".
O sistema processará o arquivo e gerará um par de controle de qualidade para exibir uma barra de progresso e um resumo dos resultados.
Após a conclusão da geração, você pode visualizar os três primeiros pares de controle de qualidade.

Upload de arquivos e geração de pares de controle de qualidade

A versão atualizada suporta vários uploads de arquivo

Visualize os 3 primeiros pares de controle de qualidade gerados

4.6 Base de conhecimento de gestão

Na barra lateral esquerda, selecione a ação da base de conhecimento.
Selecione Inserir uma coleção existente ou uma nova coleção .
- Insira uma coleção existente:
  - Selecione uma coleção existente na lista suspensa.
- Crie uma nova coleção:
  - Digite o nome da nova coleção.
  - Defina a capacidade da coleção (entre 1-1000).
  - Clique no botão "Criar nova coleção".

Insira a base de conhecimento existente

Insira uma base de conhecimento recém -criada

4.7 Insira o par de controle de qualidade na coleção

Verifique se o arquivo foi enviado e o par de controle de qualidade foi gerado.
Na interface de gerenciamento da base de conhecimento, selecione ou crie uma coleção.
Clique no botão "Inserir par de qA para coleção selecionada".
O sistema exibe o progresso da inserção e o resumo do resultado.

Não é possível inserir sem QA

Com sucesso inserido na base de conhecimento

4.8 Download de coleção ou upload

Na interface de gerenciamento da base de conhecimento, selecione uma coleção.
Clique no botão "Download do conteúdo da coleção selecionado".
O sistema exibirá o número de pedaços obtidos.
Clique em "Baixe o conteúdo da coleção como um arquivo json" para baixar a coleção correspondente

Baixar coleção

Carregar o arquivo JSON para a coleção

5. Realização de tecnologia

5.1 Configuração e inicialização

Primeiro, configuramos a configuração e inicialização necessárias:

 base_url = 'your_knowledgebase_base_url'
api_key = 'your_knowledgebase_api_key'
headers = { "Authorization" : f"Bearer { api_key } " }

client = OpenAI (
    api_key = "your_llm_api_key" ,
    base_url = "your_llm_base_url" ,
)

Esta seção define as informações básicas de URL e autenticação da API, bem como a configuração do cliente OpenAI.

5.2 Funções principais

5.2.1 Processamento de texto e geração de perguntas e respostas

get_completion : ligue para o modelo para gerar a resposta.
generate_qa_pairs_with_progress : gerar um par de perguntas e respostas e exibir progresso.

5.2.1.1 get_completion (prompt, modelo = "qwen25-72b")

Função : obtenha a resposta do modelo.

parâmetro :

prompt : Prompt de texto para enviar para o modelo.
model : o nome do modelo usado, o padrão é "QWEN25-72B".

Retorno : retorna o conteúdo de resposta gerado pelo modelo. Se ocorrer um erro ao chamar a API, nenhuma será retornada.

 def get_completion ( prompt , model = "qwen25-72b" ):
    """获取模型的响应"""
    try :
        response = client . chat . completions . create (
            model = model ,
            messages = [{ "role" : "user" , "content" : prompt }],
            temperature = 0 ,
        )
        return response . choices [ 0 ]. message . content
    except Exception as e :
        st . error ( f"调用API时发生错误: { e } " )
        return None

5.2.1.2 generate_qa_pairs_with_progress (text_chunks)

Função : Esta função gera pares de controle de qualidade com base em blocos de texto (aqui pode projetar uma melhor estratégia de geração de controle de qualidade e obter uma melhor geração ajustando o Propt).

parâmetro :

text_chunks : Uma lista de blocos de texto para gerar pares de perguntas e respostas. Retorno : Retorna a lista gerada de perguntas e respostas.

 def generate_qa_pairs_with_progress ( text_chunks ):
    """生成问答对并显示进度"""
    qa_pairs = []
    progress_bar = st . progress ( 0 )
    for i , chunk in enumerate ( text_chunks ):
        prompt = f"""基于以下给定的文本，生成一组高质量的问答对。请遵循以下指南：
        
                1. 问题部分：
                - 为同一个主题创建尽可能多的（如K个）不同表述的问题，确保问题的多样性。
                - 每个问题应考虑用户可能的多种问法，例如：
                - 直接询问（如“什么是...？”）
                - 请求确认（如“是否可以说...？”）
                - 寻求解释（如“请解释一下...的含义。”）
                - 假设性问题（如“如果...会怎样？”）
                - 例子请求（如“能否举个例子说明...？”）
                - 问题应涵盖文本中的关键信息、主要概念和细节，确保不遗漏重要内容。

                2. 答案部分：
                - 提供一个全面、信息丰富的答案，涵盖问题的所有可能角度，确保逻辑连贯。
                - 答案应直接基于给定文本，确保准确性和一致性。
                - 包含相关的细节，如日期、名称、职位等具体信息，必要时提供背景信息以增强理解。

                3. 格式：
                - 使用 "Q:" 标记问题集合的开始，所有问题应在一个段落内，问题之间用空格分隔。
                - 使用 "A:" 标记答案的开始，答案应清晰分段，便于阅读。
                - 问答对之间用两个空行分隔，以提高可读性。

                4. 内容要求：
                - 确保问答对紧密围绕文本主题，避免偏离主题。
                - 避免添加文本中未提及的信息，确保信息的真实性。
                - 如果文本信息不足以回答某个方面，可以在答案中说明 "根据给定信息无法确定"，并尽量提供相关的上下文。

                5. 示例结构（仅供参考，实际内容应基于给定文本）：
                
            给定文本：
            { chunk }

            请基于这个文本生成问答对。
            """
        response = get_completion ( prompt )
        if response :
            try :
                parts = response . split ( "A:" , 1 )
                if len ( parts ) == 2 :
                    question = parts [ 0 ]. replace ( "Q:" , "" ). strip ()
                    answer = parts [ 1 ]. strip ()
                    qa_pairs . append ({ "question" : question , "answer" : answer })
                else :
                    st . warning ( f"无法解析响应: { response } " )
            except Exception as e :
                st . warning ( f"处理响应时出错: { str ( e ) } " )
        
        progress = ( i + 1 ) / len ( text_chunks )
        progress_bar . progress ( progress )
    
    return qa_pairs

5.2.2 Processamento de solicitação da API

API_REQUEST : lida com solicitações de API comuns.
create_collection : crie uma nova coleção.
create_chunk : crie blocos de dados.
list_chunks : lista os blocos de dados na coleção.
get_chunk_details : obtenha os detalhes de um bloco de dados específico.
fetch_all_chunks_from_collection : obtenha todos os blocos de dados da coleção.

5.2.2.1 API_REQUEST (Método, URL, ** Kwargs)

Função : lidar com solicitações de API comuns.

parâmetro :

method : Método de solicitação HTTP (como get, post, etc.).
url : O URL solicitado.
kwargs : outros parâmetros de solicitação (como cabeçalhos, json, etc.). Retorno : retorna a parte "dados" da resposta da API. Se a solicitação falhar, uma mensagem de erro será exibida e nenhuma será retornada.

 def api_request ( method , url , ** kwargs ):
    try :
        response = requests . request ( method , url , headers = headers , ** kwargs )
        response . raise_for_status ()
        return response . json (). get ( 'data' )
    except requests . RequestException as e :
        st . error ( f"API请求失败: { e } " )
        return None

5.2.2.2 create_collection (nome, incorporado_model_id, capacidade)

Função : Crie uma nova coleção.

parâmetro :

name : o nome da coleção.
embedding_model_id : o ID do modelo incorporado.
capacity : capacidade da coleção. Retorno : retorna os dados de resposta da coleção criada.

 def create_collection ( name , embedding_model_id , capacity ):
    data = {
        "name" : name ,
        "embedding_model_id" : embedding_model_id ,
        "capacity" : capacity
    }
    return api_request ( "POST" , f" { base_url } collections" , json = data )

5.2.2.3 Create_chunk (colecpo_id, conteúdo)

Função : Crie blocos de dados.

parâmetro :

collection_id : ID da coleção.
content : o conteúdo do bloco de dados. Retorno : retorna os dados de resposta do bloco de dados criado. Se a solicitação falhar, uma mensagem de erro será exibida e nenhuma será retornada.

 def create_chunk ( collection_id , content ):
    data = {
        "collection_id" : collection_id ,
        "content" : content
    }
    endpoint = f" { base_url } collections/ { collection_id } /chunks"
    try :
        response = requests . post ( endpoint , headers = headers , json = data )
        response . raise_for_status ()
        return response . json ()[ 'data' ]
    except requests . RequestException as e :
        st . error ( f"创建chunk失败: { e } " )
        return None

5.2.2.4 list_chunks (collection_id, limite = 20, depois = nenhum)

Função : lista os blocos de dados na coleção especificada.

parâmetro :

collection_id : ID da coleção.
limit : O número de blocos de dados retornados é limitado, o padrão é 20.
after : Parâmetros usados para paginação, especificando de qual bloco de dados iniciar. Retorno : retorna a lista de blocos de dados. Se a solicitação falhar, uma mensagem de erro será exibida e uma lista vazia será retornada.

 def list_chunks ( collection_id , limit = 20 , after = None ):
    url = f" { base_url } collections/ { collection_id } /chunks"   
    params = {
        "limit" : limit ,
        "order" : "desc"
    }
    if after :
        params [ "after" ] = after

    response = api_request ( "GET" , url , params = params )
    if response is not None :
        return response
    else :
        st . error ( "列出 chunks 失败。" )
        return []

5.2.2.5 get_chunk_details (chunk_id, collection_id)

Função : Obtenha informações detalhadas sobre um bloco de dados específico.

parâmetro :

chunk_id : o ID do bloco de dados.
collection_id : ID da coleção. Retorno : retorna os detalhes do bloco de dados. Se a solicitação falhar, uma mensagem de erro será exibida e nenhuma será retornada.

 def get_chunk_details ( chunk_id , collection_id ):
    url = f" { base_url } collections/ { collection_id } /chunks/ { chunk_id } " 
    response = api_request ( "GET" , url )
    if response is not None :
        return response
    else :
        st . error ( "获取 chunk 详细信息失败。" )
        return None

5.2.2.6 Fetch_all_chunks_from_collection (coletive_id)

Função : Obtenha todos os blocos de dados da coleção especificada.

parâmetro :

collection_id : ID da coleção. Retornar : retorna uma lista de informações detalhadas para todos os blocos de dados.

 def fetch_all_chunks_from_collection ( collection_id ):
    all_chunks = []
    after = None

    while True :
        chunk_list = list_chunks ( collection_id , after = after )
        if not chunk_list :
            break
        for chunk in chunk_list :
            chunk_id = chunk [ 'chunk_id' ]
            chunk_details = get_chunk_details ( chunk_id , collection_id )
            if chunk_details :
                all_chunks . append ( chunk_details )
        if len ( chunk_list ) < 20 :
            break
        after = chunk_list [ - 1 ][ 'chunk_id' ]
    return all_chunks

5.2.3 Processamento de arquivos

load_single_document : carregue um único documento.
Process_File : Processos Carregou arquivos e gera blocos de texto.
Process_files : Processe vários arquivos carregados e gerar blocos de texto.

5.2.3.1 load_single_document (file_path: str) -> list [documento]

Função : carregue um único documento. parâmetro :

file_path : o caminho do arquivo para o documento. Retorno : retorna a lista de documentos carregados. Se a extensão do arquivo não for suportada, um ValueError será lançado.

 def load_single_document ( file_path : str ) -> List [ Document ]:
    ext = "." + file_path . rsplit ( "." , 1 )[ - 1 ]
    if ext in LOADER_MAPPING :
        loader_class , loader_args = LOADER_MAPPING [ ext ]
        loader = loader_class ( file_path , ** loader_args )
        return loader . load ()
    raise ValueError ( f"Unsupported file extension ' { ext } '" )

5.2.3.2 process_file (upload_file)

Função : Processar arquivos carregados e gerar blocos de texto. parâmetro :

uploaded_file : o objeto de arquivo carregado. Retornar : retorna a lista de blocos de texto gerados. Se o processamento do arquivo falhar, uma lista vazia será retornada.

 def process_file ( uploaded_file ):
    with tempfile . NamedTemporaryFile ( delete = False , suffix = os . path . splitext ( uploaded_file . name )[ 1 ]) as tmp_file :
        tmp_file . write ( uploaded_file . getvalue ())
        tmp_file_path = tmp_file . name
    try :
        documents = load_single_document ( tmp_file_path )
        if not documents :
            st . error ( "文件处理失败，请检查文件格式是否正确。" )
            return []

        text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 2000 , chunk_overlap = 500 )
        text_chunks = text_splitter . split_documents ( documents )
        return text_chunks
    except Exception as e :
        st . error ( f"处理文件时发生错误: { e } " )
        return []
    finally :
        os . unlink ( tmp_file_path )

5.2.3.4 process_files (upload_files)

Função : Processe vários arquivos enviados e gerar blocos de texto. parâmetro :

uploaded_files : uma lista de objetos de arquivo carregado. Retornar : Retorna uma lista de todos os blocos de texto gerados.

 def process_files ( uploaded_files ):
    all_text_chunks = []
    for uploaded_file in uploaded_files :
        with tempfile . NamedTemporaryFile ( delete = False , suffix = os . path . splitext ( uploaded_file . name )[ 1 ]) as tmp_file :
            tmp_file . write ( uploaded_file . getvalue ())
            tmp_file_path = tmp_file . name
        try :
            documents = load_single_document ( tmp_file_path )
            if not documents :
                st . error ( f"文件 { uploaded_file . name } 处理失败，请检查文件格式是否正确。" )
                continue

            text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 2000 , chunk_overlap = 500 )
            text_chunks = text_splitter . split_documents ( documents )
            all_text_chunks . extend ( text_chunks )
        except Exception as e :
            st . error ( f"处理文件 { uploaded_file . name } 时发生错误: { e } " )
        finally :
            os . unlink ( tmp_file_path )
    
    return all_text_chunks

5.2.4 Pergunta e resposta para gerenciamento de banco de dados

insert_qa_pairs_to_database : insira um par de perguntas e respostas no banco de dados.

5.2.4.1 insert_qa_pairs_to_database (coletive_id)

Função : Insira um par de perguntas e respostas no banco de dados.

parâmetro :

collection_id : o ID da coleção para inserir o par de perguntas e respostas. Retorno : retorna o número de perguntas e perguntas e respostas inseridas com sucesso e o número de falhas.

 def insert_qa_pairs_to_database ( collection_id ):
    progress_bar = st . progress ( 0 )
    status_text = st . empty ()
    success_count = 0
    fail_count = 0
    for i , qa_pair in enumerate ( st . session_state . qa_pairs ):
        try :
            if "question" in qa_pair and "answer" in qa_pair and "chunk" in qa_pair :
                content = f"问题： { qa_pair [ 'question' ] } n答案： { qa_pair [ 'answer' ] } n原文： { qa_pair [ 'chunk' ] } "
                if len ( content ) > 4000 :
                    content = content [: 4000 ]
                if create_chunk ( collection_id = collection_id , content = content ):
                    success_count += 1
                else :
                    fail_count += 1
                    st . warning ( f"插入QA对 { i + 1 } 失败" )
            else :
                fail_count += 1
                st . warning ( f"QA对 { i + 1 } 格式无效" )
        except Exception as e :
            st . error ( f"插入QA对 { i + 1 } 时发生错误: { str ( e ) } " )
            fail_count += 1
        
        progress = ( i + 1 ) / len ( st . session_state . qa_pairs )
        progress_bar . progress ( progress )
        status_text . text ( f"进度: { progress :.2% } | 成功: { success_count } | 失败: { fail_count } " )

    return success_count , fail_count

5.2.5 Download de dados e upload

Download_chunks_as_json : faça o download do bloco de dados como um arquivo json.
upload_json_chunks : upload blocos de dados do arquivo json para a coleção especificada.

5.2.5.1 Download_chunks_as_json (chunks, collection_name)

Função : Faça o download dos blocos de dados nos arquivos JSON e formate -os claramente.

parâmetro :

chunks : Uma lista de blocos de dados.
collection_name : o nome da coleção, usado para gerar o nome do arquivo baixado. Retorno : Sem valor de retorno, forneça diretamente o botão de download.

 def download_chunks_as_json ( chunks , collection_name ):
    if chunks :
        json_data = { "chunks" : []}
        for chunk in chunks :
            json_data [ "chunks" ]. append ({
                "chunk_id" : chunk . get ( "chunk_id" ),
                "record_id" : chunk . get ( "record_id" ),
                "collection_id" : chunk . get ( "collection_id" ),
                "content" : chunk . get ( "content" ),
                "num_tokens" : chunk . get ( "num_tokens" ),
                "metadata" : chunk . get ( "metadata" , {}),
                "updated_timestamp" : chunk . get ( "updated_timestamp" ),
                "created_timestamp" : chunk . get ( "created_timestamp" ),
            })
        
        json_str = json . dumps ( json_data , ensure_ascii = False , indent = 4 )
        
        st . download_button (
            label = "下载集合内容为 JSON 文件" ,
            data = json_str ,
            file_name = f" { collection_name } .json" ,
            mime = "application/json"
        )

5.2.5.2 upload_json_chunks (upload_json_file, collection_id)

Função : Carregue os blocos de dados dos arquivos JSON para a coleção especificada.

parâmetro :

uploaded_json_file : objeto de arquivo json carregado.
collection_id : o ID da coleção do bloco de dados a ser carregado. Retorno : Sem valor de retorno, exiba diretamente o progresso do upload e os resultados na interface.

 def upload_json_chunks ( uploaded_json_file , collection_id ):
    try :
        data = json . load ( uploaded_json_file )
        
        if 'chunks' not in data :
            st . error ( "JSON 文件中缺少 'chunks' 键。" )
            return
        
        chunks = data [ 'chunks' ]
        total_records = len ( chunks )
        records_per_collection = 1000
        num_collections = math . ceil ( total_records / records_per_collection )

        st . write ( f"总记录数: { total_records } " )
        st . write ( f"每个集合的记录数: { records_per_collection } " )
        st . write ( f"需要创建的集合数: { num_collections } " )

        for i in range ( num_collections ):
            st . write ( f" n导入集合 { i + 1 } / { num_collections } ..." )
            start_index = i * records_per_collection
            end_index = min (( i + 1 ) * records_per_collection , total_records )
            
            progress_bar = st . progress ( 0 )
            for j , chunk in enumerate ( chunks [ start_index : end_index ]):
                if 'content' in chunk :
                    content = chunk [ 'content' ]
                    try :
                        create_chunk (
                            collection_id = collection_id ,
                            content = content
                        )
                    except Exception as e :
                        st . error ( f"创建 chunk 时出错: { str ( e ) } " )
                        break
                else :
                    st . warning ( f"第 { start_index + j + 1 } 条记录缺少 'content' 键。" )
                    continue

                progress = ( j + 1 ) / ( end_index - start_index )
                progress_bar . progress ( progress )

        st . success ( "所有数据导入完成。" )
    except Exception as e :
        st . error ( f"上传 JSON 文件时发生错误: { str ( e ) } " )

5.3 Estrutura da página principal

A estrutura principal da interface é definida na função Main ():

 def main ():
    st . set_page_config ( page_title = "RAG管理员界面" , layout = "wide" )
    st . title ( "RAG管理员界面" )

    # 侧边栏
    st . sidebar . title ( "操作面板" )
    operation = st . sidebar . radio ( "选择操作" , [ "上传文件" , "管理知识库" ])

    if operation == "上传文件" :
        # 文件上传和处理逻辑
        ...
    elif operation == "管理知识库" :
        # 知识库管理逻辑
        ...

if __name__ == "__main__" :
    main ()

5.4 Upload e processamento de arquivo

 if operation == "上传文件" :
        st . header ( "文件上传与QA对生成" )
        uploaded_files = st . file_uploader ( "上传非结构化文件" , type = [ "txt" , "pdf" , "docx" ], accept_multiple_files = True )
        if uploaded_files :
            st . success ( "文件上传成功！" )
            
            if st . button ( "处理文件并生成QA对" ):
                with st . spinner ( "正在处理文件..." ):
                    text_chunks = process_files ( uploaded_files )
                    if not text_chunks :
                        st . error ( "文件处理失败，请检查文件格式是否正确。" )
                        return
                    st . info ( f"文件已分割成 { len ( text_chunks ) } 个文本段" )

                with st . spinner ( "正在生成QA对..." ):
                    st . session_state . qa_pairs = generate_qa_pairs_with_progress ( text_chunks )
                    st . success ( f"已生成 { len ( st . session_state . qa_pairs ) } 个QA对" )

                if st . session_state . qa_pairs :
                    st . subheader ( "前3个QA对预览" )
                    cols = st . columns ( 3 )
                    for i , qa in enumerate ( st . session_state . qa_pairs [: 3 ]):
                        with st . expander ( f"**QA对 { i + 1 } **" , expanded = True ):
                            st . markdown ( "**问题:**" )
                            st . markdown ( qa [ 'question' ])
                            st . markdown ( "**答案:**" )
                            st . markdown ( qa [ 'answer' ])
                            st . markdown ( "**原文:**" )
                            st . markdown ( qa [ 'chunk' ])
                        st . markdown ( "---" ) 
        else :
            st . warning ( "请上传文件。" )

5.5 Gerenciamento da base de conhecimento

 elif operation == "管理知识库" :
        st . header ( "知识库管理" )
        option = st . radio ( "选择操作" , ( "创建新Collection" , "插入现有Collection" , "下载Collection" , "上传JSON文件" ))
        
        if option == "插入现有Collection" :
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if st . button ( "插入QA对到选定的Collection" ):
                    if hasattr ( st . session_state , 'qa_pairs' ) and st . session_state . qa_pairs :
                        with st . spinner ( "正在插入QA对..." ):
                            success_count , fail_count = insert_qa_pairs_to_database ( selected_id )
                            st . success ( f"数据插入完成！总计: { len ( st . session_state . qa_pairs ) } | 成功: { success_count } | 失败: { fail_count } " )
                    else :
                        st . warning ( "没有可用的QA对。请先上传文件并生成QA对。" )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

        elif option == "创建新Collection" :
            new_collection_name = st . text_input ( "输入新Collection名称" )
            capacity = st . number_input ( "设置Collection容量" , min_value = 1 , max_value = 1000 , value = 1000 )
            if st . button ( "创建新Collection" ):
                with st . spinner ( "正在创建新Collection..." ):
                    new_collection = create_collection (
                        name = new_collection_name ,
                        embedding_model_id = embedding ,  # 这里可以替换为实际的模型ID
                        capacity = capacity
                    )
                    if new_collection :
                        st . success ( f"新Collection创建成功，ID: { new_collection [ 'collection_id' ] } " )
                        # 立即更新 collections 列表
                        st . session_state . collections = api_request ( "GET" , f" { base_url } collections" )
                        st . rerun ()
                    else :
                        st . error ( "创建新Collection失败" )

        elif option == "下载Collection" :
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if st . button ( "下载选定Collection的内容" ):
                    with st . spinner ( "正在获取集合内容..." ):
                        chunks = fetch_all_chunks_from_collection ( selected_id )  # Pass the API key
                        if chunks :
                            download_chunks_as_json ( chunks , selected_collection )  # Pass the collection name
                            st . success ( f"成功获取 { len ( chunks ) } 个 chunk。" )
                        else :
                            st . error ( "未能获取集合内容。" )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

        elif option == "上传JSON文件" :
            uploaded_json_file = st . file_uploader ( "选择一个 JSON 文件" , type = [ "json" ])
            
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if uploaded_json_file is not None :
                    if st . button ( "上传并插入到选定的Collection" ):
                        with st . spinner ( "正在上传 JSON 文件并插入数据..." ):
                            upload_json_chunks ( uploaded_json_file , selected_id )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

Vi. Outros assuntos

6.1 Notas

Verifique se a chave da API e o URL subjacente estão configurados corretamente antes do uso.
O processamento de arquivos grandes e a geração de pares de controle de qualidade podem levar algum tempo, seja paciente.
Pode levar muito tempo para inserir um grande número de pares de controle de qualidade na coleção, e o sistema exibirá o progresso.

6.2 Manuseio de erros

Se um erro de chamada da API ou erro de processamento de arquivo for encontrado, o sistema exibirá a mensagem de erro correspondente na interface.
Para pares de controle de qualidade que não inserirem, uma mensagem de aviso será exibida.

6.3 Considerações sobre desempenho

O aplicativo usa o mecanismo de cache do Streamlit para otimizar o desempenho, especialmente durante o processo de geração de pares de controle de qualidade.
Para arquivos grandes ou grandes pares de controle de qualidade, o tempo de processamento pode ser mais longo.

6.4 Segurança

Mantenha as chaves da API e outras informações confidenciais corretamente.
Os arquivos carregados serão temporariamente armazenados e excluídos após o processamento.

7. Obrigado

Este projeto tem sido fortemente apoiado pela inteligência artificial e pelo futuro centro de rede do campus de Zhuhai da Universidade Normal de Pequim, o centro integral de computação cruzada do campus de Zhuhai da Universidade Normal de Beijing e o Centro de Pesquisa em Engenharia do Ministério da Educação, a inteligência da Big Data-Border Intelligence da Ministério da Educação, BE

Expandir