Team GenAIus下載 - Team GenAIus源代碼下載

Team GenAIus

其他源碼

1.0.0

下載

Genaius KT：知識管理系統

概述

Genaius KT是一個針對公司內知識管理的問答聊天機器人。它可以幫助員工，尤其是新實習生和受訓者，了解正在進行的和以前的項目。聊天機器人響應與教育內容和項目詳細信息有關的查詢，從而使知識轉移無縫有效。

項目結構

GenAIus/
├── backend/
│   ├── Data/
│   │   └── (Initial raw data of multiple formats)
│   ├── DataChunks/
│   │   └── (Extracted data chunks from all_extracted_data.txt)
│   ├── Downloads/
│   │   └── (Connected with MongoDB to download data)
│   ├── AllCleanData.txt
│   ├── ExtractedRawData.txt
│   ├── app.py
│   ├── cleaningChunks.py
│   ├── downloadRawFiles.py
│   ├── embeddings.json
│   ├── environment.yml
│   ├── extractor.py
│   ├── model.py
│   ├── ScrapeHTML.py
│   ├── splittingDataToChunks.py
│   └── uploadRawFiles.py
├── frontend/
│   └── (Next.js files)
├── README.md 
└── LICENSE

管道概述

Genaius聊天機器人的管道包括多個步驟：

數據收集：從各種文件格式收集公司數據。
數據提取：使用Python庫提取文本數據。
數據預處理：使用雙子座AI模型清潔和構造提取的數據。
訓練Gen AI模型：創建向量嵌入並訓練聊天機器人。
燒瓶後端：為處理請求設置後端。
前端開發：使用Next.js構建用戶友好的界面

數據收集

管道中的第一步涉及從各種公司文檔中收集數據，包括：

PDF
DOC/DOCX
Google文檔（.gdoc）
XLS/XLSX
Google表
ppt/pptx
Google幻燈片
JPG/PNG
SVG
CSV
Markdown（MD）
txt/json/xml
html

由於公司數據通常是機密的，因此以這些格式創建了虛擬但現實的數據。

數據提取

文本數據提取是使用多個Python庫進行的，這些庫讀取各種文件格式的內容，並將其保存到合併的文本文件（ ExtractedRawData.txt ）。使用的庫包括：

os
docx
csv
openpyxl
PyPDF2
cv2
pytesseract
pptx
selenium （用於基於網絡的數據）

數據預處理

使用Google Gemini AI模型對提取的文本數據進行了預處理。鑑於大數據集，數據分為較小的零件並分批處理。清潔數據保存到一個名為AllCleanData.txt的文件中。

重要：Gemini API密鑰

該項目利用Gemini API密鑰進行數據清潔和培訓零件。克隆或分叉項目後，請確保用自己的Gemini API密鑰替換.env文件中的佔位符。

訓練Gen AI模型

一旦清理數據，下一步就是使用Gemini AI模型創建向量嵌入。聊天機器人使用這些嵌入方式根據用戶查詢來檢索相關信息，以確保其專注於其域。

燒瓶後端

燒瓶後端負責將前端連接到聊天機器人的處理邏輯。後端處理用戶界面和AI模型之間的請求和響應。

next.js的前端

用戶界面是使用Next.js構建的，為員工提供了與Genaius Chatbot互動的用戶友好聊天界面。前端設計強調可訪問性和易用性。

安裝

要在本地設置項目，請按照以下步驟：

克隆存儲庫：

git clone https://github.com/Pree-04/Team-GenAIus
cd GenAIus

重要的是：克隆或分叉項目後，請確保更改代碼中的目錄和路徑，以反映您保存項目文件的各自的本地路徑。
安裝後端依賴性：CD後端PIP install -R Euncess.txt
設置前端：CD前端NPM安裝
在後端目錄中創建一個.env文件，然後添加您的Gemini API鍵：gemini_api_key = your_gemini_api_key_here_here