Genaius KT是一个针对公司内知识管理的问答聊天机器人。它可以帮助员工,尤其是新实习生和受训者,了解正在进行的和以前的项目。聊天机器人响应与教育内容和项目详细信息有关的查询,从而使知识转移无缝有效。
GenAIus/
├── backend/
│ ├── Data/
│ │ └── (Initial raw data of multiple formats)
│ ├── DataChunks/
│ │ └── (Extracted data chunks from all_extracted_data.txt)
│ ├── Downloads/
│ │ └── (Connected with MongoDB to download data)
│ ├── AllCleanData.txt
│ ├── ExtractedRawData.txt
│ ├── app.py
│ ├── cleaningChunks.py
│ ├── downloadRawFiles.py
│ ├── embeddings.json
│ ├── environment.yml
│ ├── extractor.py
│ ├── model.py
│ ├── ScrapeHTML.py
│ ├── splittingDataToChunks.py
│ └── uploadRawFiles.py
├── frontend/
│ └── (Next.js files)
├── README.md
└── LICENSEGenaius聊天机器人的管道包括多个步骤:
管道中的第一步涉及从各种公司文档中收集数据,包括:
由于公司数据通常是机密的,因此以这些格式创建了虚拟但现实的数据。
文本数据提取是使用多个Python库进行的,这些库读取各种文件格式的内容,并将其保存到合并的文本文件( ExtractedRawData.txt )。使用的库包括:
osdocxcsvopenpyxlPyPDF2cv2pytesseractpptxselenium (用于基于网络的数据) 使用Google Gemini AI模型对提取的文本数据进行了预处理。鉴于大数据集,数据分为较小的零件并分批处理。清洁数据保存到一个名为AllCleanData.txt的文件中。
该项目利用Gemini API密钥进行数据清洁和培训零件。克隆或分叉项目后,请确保用自己的Gemini API密钥替换.env文件中的占位符。
一旦清理数据,下一步就是使用Gemini AI模型创建向量嵌入。聊天机器人使用这些嵌入方式根据用户查询来检索相关信息,以确保其专注于其域。
烧瓶后端负责将前端连接到聊天机器人的处理逻辑。后端处理用户界面和AI模型之间的请求和响应。
用户界面是使用Next.js构建的,为员工提供了与Genaius Chatbot互动的用户友好聊天界面。前端设计强调可访问性和易用性。
要在本地设置项目,请按照以下步骤:
克隆存储库:
git clone https://github.com/Pree-04/Team-GenAIus
cd GenAIus
重要的是:克隆或分叉项目后,请确保更改代码中的目录和路径,以反映您保存项目文件的各自的本地路径。
安装后端依赖性:CD后端PIP install -R Euncess.txt
设置前端:CD前端NPM安装
在后端目录中创建一个.env文件,然后添加您的Gemini API键:gemini_api_key = your_gemini_api_key_here_here
运行后端服务器:CD后端Python App.py
启动前端:CD前端NPM Run Dev
访问http:// localhost:3000与聊天机器人互动。
端到端集成:通过聊天机器人的全面集成完全部署Web应用程序,以增强其可访问性。分层访问控制:实现一项功能,该功能限制了基于员工在组织中的位置的机密数据访问。这样可以确保只有适当间隙的人才能访问敏感信息。
欢迎捐款!请创建拉动请求或打开讨论问题。
该项目已根据MIT许可获得许可。有关详细信息,请参见许可证文件。