ner and Hybrid-search-ai-chatbot
使用LLM和Vector数据库的指定实现识别和关系映射的示例。混合搜索聊天机器人以利用提取的关系。
混合搜索将同时搜索源实体和目标实体,从而使搜索能力比传统抹布更好。这种方法允许相关的记忆可能没有相同的隐式语义含义。此处使用的方法是一个简单的版本,但是可以使用持续的嵌套方法以额外的上下文长度为代价。
最初是为我的Aetherius AI助手项目的解决方案而制作的,但是我永远无法与较小的LLM可靠地工作。
主要AI助理项目:https://github.com/libraryofcelsus/aetherius_ai_assistant
向量数据库:https://github.com/qdrant/qdrant
ChangElog
2/19更改了PDF阅读以使用Tesseract
2/18添加了CSV输出
安装
- 安装Python 3.10.6,确保将其添加到路径:https://www.python.org/downloads/release/python-3106/
- 安装git:https://git-scm.com/(可以通过在“绿色代码”按钮下以zip文件下载回购来跳过git)
- 安装用于OCR的Tesseract:https://github.com/ub-mannheim/tesseract/wiki安装后,安装后,将“ Tesseract-ocr”文件夹从程序文件复制到主项目文件夹。替代性您还可以在初始安装时在项目文件夹中将其直接安装到名为“ Tesseract-OR”的文件夹中。
- 如果使用QDRANT云将其API密钥和URL复制到设置中的各自键。 qdrant云:https://qdrant.to/cloud
- 要使用本地QDRANT服务器,请首先安装Docker:https://www.docker.com/
- 现在运行:Docker Pull Qdrant/QDrant:v1.5.1在CMD中
- 下一个运行:Docker Run -P 6333:6333 QDRANT/QDRANT:V1.5.1
- 一旦运行本地QDRANT服务器,应由聊天机器人自动检测到它。 (请参阅:https://docs.docker.com/desktop/backup-and-restore/有关如何进行备份。)
- 打开CMD作为管理员
- 运行git克隆: git克隆https://github.com/libraryofcelsus/ner-and-hybrid-search-ai-chatbot.git
- 导航到项目文件夹:CD PATH_TO_CHATBOT_INSTALL
- 创建虚拟环境:Python -M Venv Venv
- 激活环境:。 venv scripts 激活
- 安装所需的软件包:PIP install -R Euncess.txt
- 在“ settings.json”中编辑设置
- 运行“ hybrid_search_example.py”以使用聊天机器人。运行“ extract_relation_from_file.py”以从上传文件夹中提取关系。
加入我的不和谐以寻求帮助或获得更多深入的信息!
Discord服务器:https://discord.gg/pb5zcna7ze
我的AI开发是由我的日常工作自给自足的,如果您觉得有用,请考虑捐赠!