Unduh RAG QA Generator - Unduh Kode Sumber RAG QA Generator

1. PENDAHULUAN LATAR BELAKANG

Sistem pengambilan augmented generasi (RAG) telah menjadi arah pengembangan yang penting di bidang kecerdasan buatan, menggabungkan kemampuan generasi model bahasa skala besar dengan informasi yang tepat dari basis pengetahuan eksternal untuk memberikan jawaban yang lebih akurat dan andal. Namun, membangun dan memelihara basis pengetahuan untuk sistem kain selalu menjadi proses yang memakan waktu dan kompleks, terutama ketika berurusan dengan sejumlah besar dokumen yang tidak terstruktur. Baru -baru ini, kami sedang mengembangkan alat pembuatan Q&A (QA) otomatis untuk sistem pengambilan augmentation generasi (RAG). Proyek ini bertujuan untuk mengurangi tantangan di atas dengan mengotomatisasi proses untuk mengubah dokumen dalam berbagai format menjadi tanya jawab terstruktur dan menjawab pasangan dan mengintegrasikannya dengan mulus ke dalam basis pengetahuan sistem RAG.

2. Usulkan motivasi

Proyek ini berasal dari tantangan yang dihadapi dalam pengembangan sistem rag aktual, di antaranya motivasi umum adalah sebagai berikut:

Tingkatkan Efisiensi : Metode tradisional tidak efektif atau terlalu memakan waktu, dan kami membutuhkan cara untuk dengan cepat memproses sejumlah besar dokumen.
Tingkatkan Kualitas : Menggunakan kecerdasan model besar, kami berharap bahwa pasangan tanya jawab dapat lebih sesuai dengan konten teks dan meningkatkan kualitas basis pengetahuan.
Kurangi intervensi manusia : Melalui proses otomatis, kami bertujuan untuk meminimalkan partisipasi manusia, sehingga mengurangi kesalahan manusia dan bias subyektif.
Adaptasi Fleksibel : Kami membutuhkan sistem yang dapat menangani dokumen dalam berbagai format dan beradaptasi dengan kebutuhan pengetahuan di bidang yang berbeda.
Ramah Pengguna : Bahkan personel non-teknis harus dapat dengan mudah menggunakan sistem ini dan berpartisipasi dalam konstruksi dan manajemen basis pengetahuan.

3. Solusi Teknis

Secara khusus, solusi teknis keseluruhan kami dapat diringkas ke bagian -bagian berikut:

Pemrosesan Dokumen : Gunakan pustaka Document_Loaders dari Langchain_Community untuk memproses dokumen dalam berbagai format (TXT, PDF, DOCX) dan membaginya menjadi blok teks dengan ukuran yang sesuai berdasarkan ini.
Generasi QA yang digerakkan AI : Gunakan API OpenAI (menggunakan model QWEN2.5-72B dalam hal ini) untuk secara otomatis menghasilkan pasangan Q&A berkualitas tinggi. Dengan propt yang dirancang dengan cermat, pastikan pasangan T&J yang dihasilkan berpusat erat di sekitar konten teks.
Manajemen Basis Pengetahuan : Mengimplementasikan sistem manajemen koleksi yang fleksibel yang memungkinkan pembuatan koleksi baru atau pemilihan koleksi yang ada untuk menyimpan pasangan QA yang dihasilkan. Gunakan API Restful untuk berinteraksi dengan database backend untuk menyimpan dan mengambil data.
Antarmuka Pengguna : Antarmuka web yang intuitif dan ramah pengguna dibangun berdasarkan streamlit. Antarmuka ini menyediakan fungsi seperti unggahan file, pratinjau pembuatan pasangan QA, manajemen basis pengetahuan, dll., Membuat seluruh proses menjadi sederhana dan jelas.
Pelacakan Kemajuan dan Penanganan Kesalahan : Tampilan kemajuan yang terperinci dan mekanisme penanganan kesalahan diimplementasikan untuk memastikan bahwa pengguna dapat memahami kemajuan pemrosesan secara real time dan menerima umpan balik tepat waktu ketika masalah terjadi.
Optimalisasi cache : Gunakan streamlit's @st.cache_data dekorator untuk mengoptimalkan kinerja, terutama selama pembuatan pasangan QA.
Pertimbangan Keamanan : Gunakan file sementara untuk memproses dokumen yang diunggah dan hapus segera setelah diproses untuk memastikan keamanan data.

4. Instalasi dan Penggunaan

4.1 Prasyarat

StreamLit == 1.22.0
Permintaan == 2.31.0
OpenAI == 0.28.0
langchain == 0.10.0
Pymupdf == 1.22.5
panda == 2.1.1
langchain_community == 0.1.0

4.2 Langkah Instalasi

Klon Repositori ini:

 git clone https://github.com/wangxb96/RAG-QA-Generator.git
cd RAG-QA-Generator

Instal dependensi:

 pip install -r requirements.txt

Konfigurasikan Kunci API dan URL Basis:

 base_url = 'http://your-api-url/v1/'
api_key = 'your-api-key'
headers = {"Authorization": f"Bearer {api_key}"}

client = OpenAI(
    api_key="your-openai-api-key",
    base_url="http://your-openai-api-url/v1",
)

4.3 Jalankan Aplikasi

Mulai aplikasi streamLit:

 streamlit run AutoQAG.py

Buka browser dan kunjungi http: // localhost: 8501.

4.4 Tinjauan halaman

Antarmuka aplikasi dibagi menjadi dua bagian utama:

Sidebar kiri : Digunakan untuk memilih tindakan (unggah file atau mengelola basis pengetahuan)
Antarmuka utama : Tampilkan konten terperinci dan elemen interaktif dari operasi saat ini

Halaman Beranda Manajemen Rag

4.5 Unggah file

Pilih operasi "Unggah File" di bilah sisi kiri.
Di antarmuka utama, gunakan pengunggah file untuk mengunggah file yang tidak terstruktur (mendukung format TXT, PDF, dan DOCX).
Setelah unggahan file berhasil, klik tombol "Proses File dan Hasilkan QA Pair".
Sistem akan memproses file dan menghasilkan pasangan QA untuk menampilkan bilah kemajuan dan ringkasan hasilnya.
Setelah generasi selesai, Anda dapat melihat pratinjau 3 pasangan QA pertama.

Unggahan file dan pembuatan pasangan QA

Versi yang diperbarui mendukung beberapa unggahan file

Pratinjau 3 pasangan QA pertama yang dihasilkan

4.6 Basis Pengetahuan Manajemen

Di bilah sisi kiri, pilih aksi Basis Pengetahuan Kelola.
Pilih Masukkan koleksi yang ada atau koleksi baru .
- Masukkan koleksi yang ada:
  - Pilih koleksi yang ada dari daftar drop-down.
- Buat koleksi baru:
  - Masukkan nama koleksi baru.
  - Tetapkan kapasitas pengumpulan (antara 1-1000).
  - Klik tombol "Buat Koleksi Baru".

Masukkan basis pengetahuan yang ada

Masukkan basis pengetahuan yang baru dibuat

4.7 Masukkan QA Pair ke koleksi

Pastikan file telah diunggah dan pasangan QA telah dihasilkan.
Di antarmuka manajemen basis pengetahuan, pilih atau buat koleksi.
Klik tombol "Masukkan QA Pair ke Koleksi yang Dipilih".
Sistem menampilkan kemajuan penyisipan dan ringkasan hasil.

Tidak dapat menyisipkan tanpa qa

Berhasil dimasukkan ke dalam basis pengetahuan

4.8 Koleksi Unduh atau Koleksi Unggah

Di antarmuka manajemen basis pengetahuan, pilih koleksi.
Klik tombol "Unduh Konten Koleksi yang Dipilih".
Sistem akan menampilkan jumlah potongan yang diperoleh.
Klik "Unduh Konten Koleksi sebagai File JSON" untuk mengunduh koleksi yang sesuai

Koleksi unduh

Unggah file JSON ke koleksi

5. Realisasi Teknologi

5.1 Konfigurasi dan Inisialisasi

Pertama, kami mengatur konfigurasi dan inisialisasi yang diperlukan:

 base_url = 'your_knowledgebase_base_url'
api_key = 'your_knowledgebase_api_key'
headers = { "Authorization" : f"Bearer { api_key } " }

client = OpenAI (
    api_key = "your_llm_api_key" ,
    base_url = "your_llm_base_url" ,
)

Bagian ini menetapkan URL dasar dan informasi otentikasi API, serta konfigurasi klien OpenAI.

5.2 Fungsi Inti

5.2.1 Pemrosesan teks dan generasi tanya

get_completion : Panggil model untuk menghasilkan respons.
Generate_QA_PAIRS_WITH_PROGRESS : Hasilkan pasangan Q&A dan tampilkan kemajuan.

5.2.1.1 get_completion (prompt, model = "qwen25-72b")

Fungsi : Dapatkan respons model.

Parameter :

prompt : Prompt teks untuk mengirim ke model.
model : Nama model yang digunakan, default adalah "QWEN25-72B".

Return : Mengembalikan konten respons yang dihasilkan oleh model. Jika terjadi kesalahan saat memanggil API, tidak ada yang dikembalikan.

 def get_completion ( prompt , model = "qwen25-72b" ):
    """获取模型的响应"""
    try :
        response = client . chat . completions . create (
            model = model ,
            messages = [{ "role" : "user" , "content" : prompt }],
            temperature = 0 ,
        )
        return response . choices [ 0 ]. message . content
    except Exception as e :
        st . error ( f"调用API时发生错误: { e } " )
        return None

5.2.1.2 Generate_qa_pairs_with_progress (Text_Chunks)

Fungsi : Fungsi ini menghasilkan pasangan QA berdasarkan blok teks (di sini dapat merancang strategi pembuatan QA yang lebih baik dan mencapai generasi yang lebih baik dengan menyesuaikan propt).

Parameter :

text_chunks : Daftar blok teks untuk menghasilkan pasangan tanya jawab. Pengembalian : Mengembalikan daftar pertanyaan dan jawaban yang dihasilkan.

 def generate_qa_pairs_with_progress ( text_chunks ):
    """生成问答对并显示进度"""
    qa_pairs = []
    progress_bar = st . progress ( 0 )
    for i , chunk in enumerate ( text_chunks ):
        prompt = f"""基于以下给定的文本，生成一组高质量的问答对。请遵循以下指南：
        
                1. 问题部分：
                - 为同一个主题创建尽可能多的（如K个）不同表述的问题，确保问题的多样性。
                - 每个问题应考虑用户可能的多种问法，例如：
                - 直接询问（如“什么是...？”）
                - 请求确认（如“是否可以说...？”）
                - 寻求解释（如“请解释一下...的含义。”）
                - 假设性问题（如“如果...会怎样？”）
                - 例子请求（如“能否举个例子说明...？”）
                - 问题应涵盖文本中的关键信息、主要概念和细节，确保不遗漏重要内容。

                2. 答案部分：
                - 提供一个全面、信息丰富的答案，涵盖问题的所有可能角度，确保逻辑连贯。
                - 答案应直接基于给定文本，确保准确性和一致性。
                - 包含相关的细节，如日期、名称、职位等具体信息，必要时提供背景信息以增强理解。

                3. 格式：
                - 使用 "Q:" 标记问题集合的开始，所有问题应在一个段落内，问题之间用空格分隔。
                - 使用 "A:" 标记答案的开始，答案应清晰分段，便于阅读。
                - 问答对之间用两个空行分隔，以提高可读性。

                4. 内容要求：
                - 确保问答对紧密围绕文本主题，避免偏离主题。
                - 避免添加文本中未提及的信息，确保信息的真实性。
                - 如果文本信息不足以回答某个方面，可以在答案中说明 "根据给定信息无法确定"，并尽量提供相关的上下文。

                5. 示例结构（仅供参考，实际内容应基于给定文本）：
                
            给定文本：
            { chunk }

            请基于这个文本生成问答对。
            """
        response = get_completion ( prompt )
        if response :
            try :
                parts = response . split ( "A:" , 1 )
                if len ( parts ) == 2 :
                    question = parts [ 0 ]. replace ( "Q:" , "" ). strip ()
                    answer = parts [ 1 ]. strip ()
                    qa_pairs . append ({ "question" : question , "answer" : answer })
                else :
                    st . warning ( f"无法解析响应: { response } " )
            except Exception as e :
                st . warning ( f"处理响应时出错: { str ( e ) } " )
        
        progress = ( i + 1 ) / len ( text_chunks )
        progress_bar . progress ( progress )
    
    return qa_pairs

5.2.2 Pemrosesan Permintaan API

API_REQUEST : Menangani permintaan API umum.
create_collection : Buat koleksi baru.
create_chunk : Buat blok data.
List_chunks : Daftar blok data dalam koleksi.
get_chunk_details : Dapatkan detail blok data tertentu.
fetch_all_chunks_from_collection : Dapatkan semua blok data dari koleksi.

5.2.2.1 API_REQUEST (Metode, URL, ** KWARGS)

Fungsi : Tangani Permintaan API Umum.

Parameter :

method : Metode Permintaan HTTP (seperti Get, Post, dll.).
url : URL yang diminta.
kwargs : Parameter permintaan lainnya (seperti header, JSON, dll.). Pengembalian : Mengembalikan bagian "Data" dari respons API. Jika permintaan gagal, pesan kesalahan ditampilkan dan tidak ada yang dikembalikan.

 def api_request ( method , url , ** kwargs ):
    try :
        response = requests . request ( method , url , headers = headers , ** kwargs )
        response . raise_for_status ()
        return response . json (). get ( 'data' )
    except requests . RequestException as e :
        st . error ( f"API请求失败: { e } " )
        return None

5.2.2.2 create_collection (name, embedded_model_id, kapasitas)

Fungsi : Buat koleksi baru.

Parameter :

name : Nama koleksi.
embedding_model_id : ID dari model tertanam.
capacity : Kapasitas Pengumpulan. Return : Mengembalikan data respons dari koleksi yang dibuat.

 def create_collection ( name , embedding_model_id , capacity ):
    data = {
        "name" : name ,
        "embedding_model_id" : embedding_model_id ,
        "capacity" : capacity
    }
    return api_request ( "POST" , f" { base_url } collections" , json = data )

5.2.2.3 create_chunk (collection_id, konten)

Fungsi : Buat blok data.

Parameter :

collection_id : ID koleksi.
content : Konten blok data. Return : Mengembalikan data respons dari blok data yang dibuat. Jika permintaan gagal, pesan kesalahan ditampilkan dan tidak ada yang dikembalikan.

 def create_chunk ( collection_id , content ):
    data = {
        "collection_id" : collection_id ,
        "content" : content
    }
    endpoint = f" { base_url } collections/ { collection_id } /chunks"
    try :
        response = requests . post ( endpoint , headers = headers , json = data )
        response . raise_for_status ()
        return response . json ()[ 'data' ]
    except requests . RequestException as e :
        st . error ( f"创建chunk失败: { e } " )
        return None

5.2.2.4 list_chunks (collection_id, batas = 20, setelah = tidak ada)

Fungsi : Daftar blok data dalam koleksi yang ditentukan.

Parameter :

collection_id : ID koleksi.
limit : Jumlah blok data yang dikembalikan terbatas, standarnya adalah 20.
after : Parameter yang digunakan untuk paging, menentukan blok data mana yang akan dimulai. Pengembalian : Mengembalikan daftar blok data. Jika permintaan gagal, pesan kesalahan ditampilkan dan daftar kosong dikembalikan.

 def list_chunks ( collection_id , limit = 20 , after = None ):
    url = f" { base_url } collections/ { collection_id } /chunks"   
    params = {
        "limit" : limit ,
        "order" : "desc"
    }
    if after :
        params [ "after" ] = after

    response = api_request ( "GET" , url , params = params )
    if response is not None :
        return response
    else :
        st . error ( "列出 chunks 失败。" )
        return []

5.2.2.5 get_chunk_details (chunk_id, collection_id)

Fungsi : Dapatkan informasi terperinci tentang blok data tertentu.

Parameter :

chunk_id : ID blok data.
collection_id : ID koleksi. Return : Mengembalikan detail blok data. Jika permintaan gagal, pesan kesalahan ditampilkan dan tidak ada yang dikembalikan.

 def get_chunk_details ( chunk_id , collection_id ):
    url = f" { base_url } collections/ { collection_id } /chunks/ { chunk_id } " 
    response = api_request ( "GET" , url )
    if response is not None :
        return response
    else :
        st . error ( "获取 chunk 详细信息失败。" )
        return None

5.2.2.6 fetch_all_chunks_from_collection (collection_id)

Fungsi : Dapatkan semua blok data dari koleksi yang ditentukan.

Parameter :

collection_id : ID koleksi. Pengembalian : Mengembalikan daftar informasi terperinci untuk semua blok data.

 def fetch_all_chunks_from_collection ( collection_id ):
    all_chunks = []
    after = None

    while True :
        chunk_list = list_chunks ( collection_id , after = after )
        if not chunk_list :
            break
        for chunk in chunk_list :
            chunk_id = chunk [ 'chunk_id' ]
            chunk_details = get_chunk_details ( chunk_id , collection_id )
            if chunk_details :
                all_chunks . append ( chunk_details )
        if len ( chunk_list ) < 20 :
            break
        after = chunk_list [ - 1 ][ 'chunk_id' ]
    return all_chunks

5.2.3 Pemrosesan File

load_single_document : Muat satu dokumen.
Proses_File : Proses file yang diunggah dan menghasilkan blok teks.
Proses_files : Proses beberapa file yang diunggah dan menghasilkan blok teks.

5.2.3.1 load_single_document (file_path: str) -> daftar [dokumen]

Fungsi : Muat satu dokumen. Parameter :

file_path : Jalur file ke dokumen. Pengembalian : Mengembalikan daftar dokumen yang dimuat. Jika ekstensi file tidak didukung, nilaiRor dilemparkan.

 def load_single_document ( file_path : str ) -> List [ Document ]:
    ext = "." + file_path . rsplit ( "." , 1 )[ - 1 ]
    if ext in LOADER_MAPPING :
        loader_class , loader_args = LOADER_MAPPING [ ext ]
        loader = loader_class ( file_path , ** loader_args )
        return loader . load ()
    raise ValueError ( f"Unsupported file extension ' { ext } '" )

5.2.3.2 Proses_File (unggah_file)

Fungsi : Proses file yang diunggah dan menghasilkan blok teks. Parameter :

uploaded_file : Objek file yang diunggah. Return : Mengembalikan daftar blok teks yang dihasilkan. Jika pemrosesan file gagal, daftar kosong dikembalikan.

 def process_file ( uploaded_file ):
    with tempfile . NamedTemporaryFile ( delete = False , suffix = os . path . splitext ( uploaded_file . name )[ 1 ]) as tmp_file :
        tmp_file . write ( uploaded_file . getvalue ())
        tmp_file_path = tmp_file . name
    try :
        documents = load_single_document ( tmp_file_path )
        if not documents :
            st . error ( "文件处理失败，请检查文件格式是否正确。" )
            return []

        text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 2000 , chunk_overlap = 500 )
        text_chunks = text_splitter . split_documents ( documents )
        return text_chunks
    except Exception as e :
        st . error ( f"处理文件时发生错误: { e } " )
        return []
    finally :
        os . unlink ( tmp_file_path )

5.2.3.4 Proses_files (unggah_files)

Fungsi : Proses beberapa file yang diunggah dan menghasilkan blok teks. Parameter :

uploaded_files : Daftar objek file yang diunggah. Return : Mengembalikan daftar semua blok teks yang dihasilkan.

 def process_files ( uploaded_files ):
    all_text_chunks = []
    for uploaded_file in uploaded_files :
        with tempfile . NamedTemporaryFile ( delete = False , suffix = os . path . splitext ( uploaded_file . name )[ 1 ]) as tmp_file :
            tmp_file . write ( uploaded_file . getvalue ())
            tmp_file_path = tmp_file . name
        try :
            documents = load_single_document ( tmp_file_path )
            if not documents :
                st . error ( f"文件 { uploaded_file . name } 处理失败，请检查文件格式是否正确。" )
                continue

            text_splitter = RecursiveCharacterTextSplitter ( chunk_size = 2000 , chunk_overlap = 500 )
            text_chunks = text_splitter . split_documents ( documents )
            all_text_chunks . extend ( text_chunks )
        except Exception as e :
            st . error ( f"处理文件 { uploaded_file . name } 时发生错误: { e } " )
        finally :
            os . unlink ( tmp_file_path )
    
    return all_text_chunks

5.2.4 Pertanyaan dan Jawaban untuk Manajemen Database

Insert_qa_pairs_to_database : Masukkan pasangan Q&A ke dalam database.

5.2.4.1 insert_qa_pairs_to_database (collection_id)

Fungsi : Masukkan pasangan T&J ke dalam database.

Parameter :

collection_id : ID koleksi untuk memasukkan tanya jawab. Return : Mengembalikan jumlah pasangan tanya jawab yang berhasil dimasukkan dan jumlah yang gagal.

 def insert_qa_pairs_to_database ( collection_id ):
    progress_bar = st . progress ( 0 )
    status_text = st . empty ()
    success_count = 0
    fail_count = 0
    for i , qa_pair in enumerate ( st . session_state . qa_pairs ):
        try :
            if "question" in qa_pair and "answer" in qa_pair and "chunk" in qa_pair :
                content = f"问题： { qa_pair [ 'question' ] } n答案： { qa_pair [ 'answer' ] } n原文： { qa_pair [ 'chunk' ] } "
                if len ( content ) > 4000 :
                    content = content [: 4000 ]
                if create_chunk ( collection_id = collection_id , content = content ):
                    success_count += 1
                else :
                    fail_count += 1
                    st . warning ( f"插入QA对 { i + 1 } 失败" )
            else :
                fail_count += 1
                st . warning ( f"QA对 { i + 1 } 格式无效" )
        except Exception as e :
            st . error ( f"插入QA对 { i + 1 } 时发生错误: { str ( e ) } " )
            fail_count += 1
        
        progress = ( i + 1 ) / len ( st . session_state . qa_pairs )
        progress_bar . progress ( progress )
        status_text . text ( f"进度: { progress :.2% } | 成功: { success_count } | 失败: { fail_count } " )

    return success_count , fail_count

5.2.5 Unduh dan Unggah Data

download_chunks_as_json : Unduh blok data sebagai file JSON.
unggah_json_chunks : Unggah blok data dari file JSON ke koleksi yang ditentukan.

5.2.5.1 download_chunks_as_json (chunks, collection_name)

Fungsi : Unduh blok data ke dalam file JSON dan format dengan jelas.

Parameter :

chunks : Daftar blok data.
collection_name : Nama koleksi, yang digunakan untuk menghasilkan nama file yang diunduh. Pengembalian : Tidak ada nilai pengembalian, langsung berikan tombol unduh.

 def download_chunks_as_json ( chunks , collection_name ):
    if chunks :
        json_data = { "chunks" : []}
        for chunk in chunks :
            json_data [ "chunks" ]. append ({
                "chunk_id" : chunk . get ( "chunk_id" ),
                "record_id" : chunk . get ( "record_id" ),
                "collection_id" : chunk . get ( "collection_id" ),
                "content" : chunk . get ( "content" ),
                "num_tokens" : chunk . get ( "num_tokens" ),
                "metadata" : chunk . get ( "metadata" , {}),
                "updated_timestamp" : chunk . get ( "updated_timestamp" ),
                "created_timestamp" : chunk . get ( "created_timestamp" ),
            })
        
        json_str = json . dumps ( json_data , ensure_ascii = False , indent = 4 )
        
        st . download_button (
            label = "下载集合内容为 JSON 文件" ,
            data = json_str ,
            file_name = f" { collection_name } .json" ,
            mime = "application/json"
        )

5.2.5.2 unggah_json_chunks (diunggah_json_file, collection_id)

Fungsi : Unggah blok data dari file JSON ke koleksi yang ditentukan.

Parameter :

uploaded_json_file : Objek file JSON yang diunggah.
collection_id : ID pengumpulan blok data yang akan diunggah. Pengembalian : Tidak ada nilai pengembalian, langsung menampilkan kemajuan unggahan dan hasil pada antarmuka.

 def upload_json_chunks ( uploaded_json_file , collection_id ):
    try :
        data = json . load ( uploaded_json_file )
        
        if 'chunks' not in data :
            st . error ( "JSON 文件中缺少 'chunks' 键。" )
            return
        
        chunks = data [ 'chunks' ]
        total_records = len ( chunks )
        records_per_collection = 1000
        num_collections = math . ceil ( total_records / records_per_collection )

        st . write ( f"总记录数: { total_records } " )
        st . write ( f"每个集合的记录数: { records_per_collection } " )
        st . write ( f"需要创建的集合数: { num_collections } " )

        for i in range ( num_collections ):
            st . write ( f" n导入集合 { i + 1 } / { num_collections } ..." )
            start_index = i * records_per_collection
            end_index = min (( i + 1 ) * records_per_collection , total_records )
            
            progress_bar = st . progress ( 0 )
            for j , chunk in enumerate ( chunks [ start_index : end_index ]):
                if 'content' in chunk :
                    content = chunk [ 'content' ]
                    try :
                        create_chunk (
                            collection_id = collection_id ,
                            content = content
                        )
                    except Exception as e :
                        st . error ( f"创建 chunk 时出错: { str ( e ) } " )
                        break
                else :
                    st . warning ( f"第 { start_index + j + 1 } 条记录缺少 'content' 键。" )
                    continue

                progress = ( j + 1 ) / ( end_index - start_index )
                progress_bar . progress ( progress )

        st . success ( "所有数据导入完成。" )
    except Exception as e :
        st . error ( f"上传 JSON 文件时发生错误: { str ( e ) } " )

5.3 Struktur Halaman Utama

Struktur antarmuka utama didefinisikan dalam fungsi utama ():

 def main ():
    st . set_page_config ( page_title = "RAG管理员界面" , layout = "wide" )
    st . title ( "RAG管理员界面" )

    # 侧边栏
    st . sidebar . title ( "操作面板" )
    operation = st . sidebar . radio ( "选择操作" , [ "上传文件" , "管理知识库" ])

    if operation == "上传文件" :
        # 文件上传和处理逻辑
        ...
    elif operation == "管理知识库" :
        # 知识库管理逻辑
        ...

if __name__ == "__main__" :
    main ()

5.4 File Unggah dan Pemrosesan

 if operation == "上传文件" :
        st . header ( "文件上传与QA对生成" )
        uploaded_files = st . file_uploader ( "上传非结构化文件" , type = [ "txt" , "pdf" , "docx" ], accept_multiple_files = True )
        if uploaded_files :
            st . success ( "文件上传成功！" )
            
            if st . button ( "处理文件并生成QA对" ):
                with st . spinner ( "正在处理文件..." ):
                    text_chunks = process_files ( uploaded_files )
                    if not text_chunks :
                        st . error ( "文件处理失败，请检查文件格式是否正确。" )
                        return
                    st . info ( f"文件已分割成 { len ( text_chunks ) } 个文本段" )

                with st . spinner ( "正在生成QA对..." ):
                    st . session_state . qa_pairs = generate_qa_pairs_with_progress ( text_chunks )
                    st . success ( f"已生成 { len ( st . session_state . qa_pairs ) } 个QA对" )

                if st . session_state . qa_pairs :
                    st . subheader ( "前3个QA对预览" )
                    cols = st . columns ( 3 )
                    for i , qa in enumerate ( st . session_state . qa_pairs [: 3 ]):
                        with st . expander ( f"**QA对 { i + 1 } **" , expanded = True ):
                            st . markdown ( "**问题:**" )
                            st . markdown ( qa [ 'question' ])
                            st . markdown ( "**答案:**" )
                            st . markdown ( qa [ 'answer' ])
                            st . markdown ( "**原文:**" )
                            st . markdown ( qa [ 'chunk' ])
                        st . markdown ( "---" ) 
        else :
            st . warning ( "请上传文件。" )

5.5 Manajemen Basis Pengetahuan

 elif operation == "管理知识库" :
        st . header ( "知识库管理" )
        option = st . radio ( "选择操作" , ( "创建新Collection" , "插入现有Collection" , "下载Collection" , "上传JSON文件" ))
        
        if option == "插入现有Collection" :
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if st . button ( "插入QA对到选定的Collection" ):
                    if hasattr ( st . session_state , 'qa_pairs' ) and st . session_state . qa_pairs :
                        with st . spinner ( "正在插入QA对..." ):
                            success_count , fail_count = insert_qa_pairs_to_database ( selected_id )
                            st . success ( f"数据插入完成！总计: { len ( st . session_state . qa_pairs ) } | 成功: { success_count } | 失败: { fail_count } " )
                    else :
                        st . warning ( "没有可用的QA对。请先上传文件并生成QA对。" )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

        elif option == "创建新Collection" :
            new_collection_name = st . text_input ( "输入新Collection名称" )
            capacity = st . number_input ( "设置Collection容量" , min_value = 1 , max_value = 1000 , value = 1000 )
            if st . button ( "创建新Collection" ):
                with st . spinner ( "正在创建新Collection..." ):
                    new_collection = create_collection (
                        name = new_collection_name ,
                        embedding_model_id = embedding ,  # 这里可以替换为实际的模型ID
                        capacity = capacity
                    )
                    if new_collection :
                        st . success ( f"新Collection创建成功，ID: { new_collection [ 'collection_id' ] } " )
                        # 立即更新 collections 列表
                        st . session_state . collections = api_request ( "GET" , f" { base_url } collections" )
                        st . rerun ()
                    else :
                        st . error ( "创建新Collection失败" )

        elif option == "下载Collection" :
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if st . button ( "下载选定Collection的内容" ):
                    with st . spinner ( "正在获取集合内容..." ):
                        chunks = fetch_all_chunks_from_collection ( selected_id )  # Pass the API key
                        if chunks :
                            download_chunks_as_json ( chunks , selected_collection )  # Pass the collection name
                            st . success ( f"成功获取 { len ( chunks ) } 个 chunk。" )
                        else :
                            st . error ( "未能获取集合内容。" )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

        elif option == "上传JSON文件" :
            uploaded_json_file = st . file_uploader ( "选择一个 JSON 文件" , type = [ "json" ])
            
            if st . session_state . collections :
                collection_names = [ c [ 'name' ] for c in st . session_state . collections ]
                selected_collection = st . selectbox ( "选择Collection" , collection_names )
                selected_id = next ( c [ 'collection_id' ] for c in st . session_state . collections if c [ 'name' ] == selected_collection )

                if uploaded_json_file is not None :
                    if st . button ( "上传并插入到选定的Collection" ):
                        with st . spinner ( "正在上传 JSON 文件并插入数据..." ):
                            upload_json_chunks ( uploaded_json_file , selected_id )
            else :
                st . warning ( "没有可用的 Collections，请创建新的 Collection。" )

Vi. Hal -hal lain

6.1 Catatan

Pastikan bahwa kunci API dan URL yang mendasari dikonfigurasi dengan benar sebelum digunakan.
Pemrosesan file besar dan pembuatan pasangan QA mungkin membutuhkan waktu, harap bersabar.
Mungkin perlu waktu lama untuk memasukkan sejumlah besar pasangan QA ke dalam koleksi, dan sistem akan menampilkan kemajuan.

6.2 Penanganan kesalahan

Jika kesalahan panggilan panggilan API atau kesalahan pemrosesan file ditemui, sistem akan menampilkan pesan kesalahan yang sesuai pada antarmuka.
Untuk pasangan QA yang gagal dimasukkan, pesan peringatan akan ditampilkan.

6.3 Pertimbangan Kinerja

Aplikasi ini menggunakan mekanisme caching Streamlit untuk mengoptimalkan kinerja, terutama selama proses pembuatan pasangan QA.
Untuk file besar atau pasangan QA besar, waktu pemrosesan mungkin lebih lama.

6.4 Keamanan

Pastikan untuk menyimpan kunci API dan informasi sensitif lainnya dengan benar.
File yang diunggah akan disimpan untuk sementara waktu dan dihapus setelah diproses.

7. Terima kasih

This project has been strongly supported by the Artificial Intelligence and Future Network Center of Zhuhai Campus of Beijing Normal University, the Intelligent Cross-Computing Center of Zhuhai Campus of Beijing Normal University, and the Engineering Research Center of the Ministry of Education, Big Data Cloud-Border Intelligence Collaboration of the Ministry of Education, Beijing Normal University

Memperluas