LLM文件解析器的0.02版由LibraryOfcelsus.com
安装指南
跳到ChangElog
Discord服务器
最近的变化
•07/17添加了知识域作为单独的索引,因此可以使用向量搜索现有域。
•07/12第一版
该项目是我较大的Aetherius项目的一部分,旨在简化将非结构化数据转换为结构化数据库和数据集的过程。该程序属于AUTOML,并使用各种LLM技术来扫描,块和汇总非结构化文档,并将其转换为使用最少用户输入的结构化数据。
当前支持的文件类型:.epub,.pdf,.txt,.png,.jpg,.jpeg,.mp4,.mkv,.flv,.flv和.av
使用此格式的聊天机器人:
``该项目用作文档上传器:https://github.com/libraryofcelsus/advanced_rag_chatbot
Main AI助手GitHub:https://github.com/libraryofcelsus/aetherius_ai_assistant
我的AI工作是由我的日常工作自给自足的,如果您欣赏我的工作,请考虑支持我。
加入DISCORD寻求帮助或获得更多深入的信息!
Discord服务器:https://discord.gg/pb5zcna7ze
订阅我的YouTube视频教程:https://www.youtube.com/@libraryofcelsus(尚未启动频道)
代码教程可在以下网址提供:https://www.libraryofcelsus.com/research/public/code-tutorials/
制作人:https://github.com/libraryofcelsus
0.02
•添加了知识域作为单独的索引,因此可以使用向量搜索现有域。
0.01
•第一版
通过按<>代码下拉菜单下载项目zip文件夹。
1。安装Python 3.10.6,确保将其添加到路径: https://www.python.org/downloads/release/python-3106/
2。运行“ install_requirements.bat”以安装所需的依赖项。蝙蝠将安装Git,Poppler,Tesseract,FFMPEG以及所需的Python依赖性。
(如果安装要求运行时会遇到错误: Python -M Pip Cache Purge )
3。设置QDRANT或MARQO DB。要更改DB所使用的内容,请在./settings.json中编辑“ vector_db”键。 qdrant是默认值。
qdrant文档:https://qdrant.tech/documentation/guides/installation/
Marqo文档:https://docs.marqo.ai/2.9/
``使用本地QDRANT服务器,首先安装Docker:https://www.docker.com。
下一个类型: docker拉qdrant/qdrant:命令提示符中的v1.9.1 。
下载完成后,键入docker run -p 6333:6333 qdrant/qdrant:v1.9.1
要使用本地MARQO服务器,请首先安装Docker:https://www.docker.com。
下一个类型: Docker Pull Marqoai/Marqo:命令提示符中的最新信息。
下载完成后,键入docker run -name marqo -gpus -gpus all -p 8882:8882 marqoai/marqo:最新
(如果出现错误,请选中“ Docker容器”选项卡中的新容器,然后按开始按钮。有时它无法启动。)
请参阅:https://docs.docker.com/desktop/backup-and-restore/有关如何进行备份。
一旦运行了本地矢量数据库服务器,应由脚本自动检测到它。
6。安装所需的API。 (如果使用OpenAi,则不需要)要更改使用API的内容,请在./settings.json中编辑“ API”键
https://github.com/oobabooga/text-generation-webui
https://github.com/lostruins/koboldcpp
8。启动一个带有运行_*的脚本
9。将“设置”选项卡中的信息更改为您的偏好。
10。将文件放入./uploads目录中的相应文件夹中。首先运行文件处理脚本时,将创建上传文件夹。
要使Whisper与Cuda一起工作,您可能需要运行命令:
。 venv scripts activate
PIP卸载火炬火炬手
PIP安装火炬火炬Torchaudio -f https://download.pytorch.org/whl/cu118/torch_stable.html
如果您想更改将数据上传到向量db的格式,则可以在./ resources/db_upload中找到上传脚本
2023年1月,我在Chatgpt和LLMS总体上获得了首届经验。从那时起,我一直深深地迷恋AI,每天都花无数小时来研究它和动手实验。
Discord:Libraryofcelsus->旧用户名样式:Celsus#0262
Mega Chat:https://mega.nz/c!Pmnmeizq