Genaius KT是一個針對公司內知識管理的問答聊天機器人。它可以幫助員工,尤其是新實習生和受訓者,了解正在進行的和以前的項目。聊天機器人響應與教育內容和項目詳細信息有關的查詢,從而使知識轉移無縫有效。
GenAIus/
├── backend/
│ ├── Data/
│ │ └── (Initial raw data of multiple formats)
│ ├── DataChunks/
│ │ └── (Extracted data chunks from all_extracted_data.txt)
│ ├── Downloads/
│ │ └── (Connected with MongoDB to download data)
│ ├── AllCleanData.txt
│ ├── ExtractedRawData.txt
│ ├── app.py
│ ├── cleaningChunks.py
│ ├── downloadRawFiles.py
│ ├── embeddings.json
│ ├── environment.yml
│ ├── extractor.py
│ ├── model.py
│ ├── ScrapeHTML.py
│ ├── splittingDataToChunks.py
│ └── uploadRawFiles.py
├── frontend/
│ └── (Next.js files)
├── README.md
└── LICENSEGenaius聊天機器人的管道包括多個步驟:
管道中的第一步涉及從各種公司文檔中收集數據,包括:
由於公司數據通常是機密的,因此以這些格式創建了虛擬但現實的數據。
文本數據提取是使用多個Python庫進行的,這些庫讀取各種文件格式的內容,並將其保存到合併的文本文件( ExtractedRawData.txt )。使用的庫包括:
osdocxcsvopenpyxlPyPDF2cv2pytesseractpptxselenium (用於基於網絡的數據) 使用Google Gemini AI模型對提取的文本數據進行了預處理。鑑於大數據集,數據分為較小的零件並分批處理。清潔數據保存到一個名為AllCleanData.txt的文件中。
該項目利用Gemini API密鑰進行數據清潔和培訓零件。克隆或分叉項目後,請確保用自己的Gemini API密鑰替換.env文件中的佔位符。
一旦清理數據,下一步就是使用Gemini AI模型創建向量嵌入。聊天機器人使用這些嵌入方式根據用戶查詢來檢索相關信息,以確保其專注於其域。
燒瓶後端負責將前端連接到聊天機器人的處理邏輯。後端處理用戶界面和AI模型之間的請求和響應。
用戶界面是使用Next.js構建的,為員工提供了與Genaius Chatbot互動的用戶友好聊天界面。前端設計強調可訪問性和易用性。
要在本地設置項目,請按照以下步驟:
克隆存儲庫:
git clone https://github.com/Pree-04/Team-GenAIus
cd GenAIus
重要的是:克隆或分叉項目後,請確保更改代碼中的目錄和路徑,以反映您保存項目文件的各自的本地路徑。
安裝後端依賴性:CD後端PIP install -R Euncess.txt
設置前端:CD前端NPM安裝
在後端目錄中創建一個.env文件,然後添加您的Gemini API鍵:gemini_api_key = your_gemini_api_key_here_here
運行後端服務器:CD後端Python App.py
啟動前端:CD前端NPM Run Dev
訪問http:// localhost:3000與聊天機器人互動。
端到端集成:通過聊天機器人的全面集成完全部署Web應用程序,以增強其可訪問性。分層訪問控制:實現一項功能,該功能限制了基於員工在組織中的位置的機密數據訪問。這樣可以確保只有適當間隙的人才能訪問敏感信息。
歡迎捐款!請創建拉動請求或打開討論問題。
該項目已根據MIT許可獲得許可。有關詳細信息,請參見許可證文件。