Team GenAIus下载 - Team GenAIus源代码下载

Team GenAIus

其他源码

1.0.0

下载

Genaius KT：知识管理系统

概述

Genaius KT是一个针对公司内知识管理的问答聊天机器人。它可以帮助员工，尤其是新实习生和受训者，了解正在进行的和以前的项目。聊天机器人响应与教育内容和项目详细信息有关的查询，从而使知识转移无缝有效。

项目结构

GenAIus/
├── backend/
│   ├── Data/
│   │   └── (Initial raw data of multiple formats)
│   ├── DataChunks/
│   │   └── (Extracted data chunks from all_extracted_data.txt)
│   ├── Downloads/
│   │   └── (Connected with MongoDB to download data)
│   ├── AllCleanData.txt
│   ├── ExtractedRawData.txt
│   ├── app.py
│   ├── cleaningChunks.py
│   ├── downloadRawFiles.py
│   ├── embeddings.json
│   ├── environment.yml
│   ├── extractor.py
│   ├── model.py
│   ├── ScrapeHTML.py
│   ├── splittingDataToChunks.py
│   └── uploadRawFiles.py
├── frontend/
│   └── (Next.js files)
├── README.md 
└── LICENSE

管道概述

Genaius聊天机器人的管道包括多个步骤：

数据收集：从各种文件格式收集公司数据。
数据提取：使用Python库提取文本数据。
数据预处理：使用双子座AI模型清洁和构造提取的数据。
训练Gen AI模型：创建向量嵌入并训练聊天机器人。
烧瓶后端：为处理请求设置后端。
前端开发：使用Next.js构建用户友好的界面

数据收集

管道中的第一步涉及从各种公司文档中收集数据，包括：

PDF
DOC/DOCX
Google文档（.gdoc）
XLS/XLSX
Google表
ppt/pptx
Google幻灯片
JPG/PNG
SVG
CSV
Markdown（MD）
txt/json/xml
html

由于公司数据通常是机密的，因此以这些格式创建了虚拟但现实的数据。

数据提取

文本数据提取是使用多个Python库进行的，这些库读取各种文件格式的内容，并将其保存到合并的文本文件（ ExtractedRawData.txt ）。使用的库包括：

os
docx
csv
openpyxl
PyPDF2
cv2
pytesseract
pptx
selenium （用于基于网络的数据）

数据预处理

使用Google Gemini AI模型对提取的文本数据进行了预处理。鉴于大数据集，数据分为较小的零件并分批处理。清洁数据保存到一个名为AllCleanData.txt的文件中。

重要：Gemini API密钥

该项目利用Gemini API密钥进行数据清洁和培训零件。克隆或分叉项目后，请确保用自己的Gemini API密钥替换.env文件中的占位符。

训练Gen AI模型

一旦清理数据，下一步就是使用Gemini AI模型创建向量嵌入。聊天机器人使用这些嵌入方式根据用户查询来检索相关信息，以确保其专注于其域。

烧瓶后端

烧瓶后端负责将前端连接到聊天机器人的处理逻辑。后端处理用户界面和AI模型之间的请求和响应。

next.js的前端

用户界面是使用Next.js构建的，为员工提供了与Genaius Chatbot互动的用户友好聊天界面。前端设计强调可访问性和易用性。

安装

要在本地设置项目，请按照以下步骤：

克隆存储库：

git clone https://github.com/Pree-04/Team-GenAIus
cd GenAIus

重要的是：克隆或分叉项目后，请确保更改代码中的目录和路径，以反映您保存项目文件的各自的本地路径。
安装后端依赖性：CD后端PIP install -R Euncess.txt
设置前端：CD前端NPM安装
在后端目录中创建一个.env文件，然后添加您的Gemini API键：gemini_api_key = your_gemini_api_key_here_here

用法

运行后端服务器：CD后端Python App.py

启动前端：CD前端NPM Run Dev

访问http：// localhost：3000与聊天机器人互动。

未来的改进

端到端集成：通过聊天机器人的全面集成完全部署Web应用程序，以增强其可访问性。分层访问控制：实现一项功能，该功能限制了基于员工在组织中的位置的机密数据访问。这样可以确保只有适当间隙的人才能访问敏感信息。

贡献

欢迎捐款！请创建拉动请求或打开讨论问题。

执照

该项目已根据MIT许可获得许可。有关详细信息，请参见许可证文件。

展开

附加信息

版本 1.0.0
类型其他源码
更新时间 2025-05-29
大小 7.36MB
来自于 Github

Team GenAIus

Genaius KT：知识管理系统

目录

概述

项目结构

管道概述

数据收集

数据提取

数据预处理

重要：Gemini API密钥

训练Gen AI模型

烧瓶后端

next.js的前端

安装

用法

未来的改进

贡献

执照

怪兽电力公司尖叫队

乐高阿尔法团队

TEAM Gsystem游戏发布系统

team论坛

team论坛

team论坛

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express