量化模型集成:此应用使用所谓的“量化模型”。这些之所以特别,是因为它们的设计旨在在常规消费硬件上工作,就像我们大多数人在家中或办公室中所拥有的那种一样。通常,这些模型的原始版本确实很大,需要更强大的计算机来运行它们。但是量化的模型被优化为更小,更高效,而不会失去太多性能。这意味着您可以使用此应用程序及其功能,而无需超级强大的计算机。来自TheBloke的量化模型
音频与Whisper AI :利用Whisper AI的强大转录功能,该应用程序提供了精致的音频消息经验。 Whisper AI的整合允许对语音输入进行准确的解释和响应,从而增强了对话的自然流动。耳语模型
与Llava聊天的图像:该应用集成了LLAVA用于图像处理,这实质上是一个精心调整的Llama模型,可以理解图像嵌入。这些嵌入是使用剪辑模型生成的,使Llava的功能就像管道一样,将高级文本和图像理解融合在一起。借助Llava,聊天体验变得更加互动和引人入胜,尤其是在处理和交谈视觉内容时。 Llama-CPP-Python Repo用于Llava Loading
PDF与Chroma DB聊天:该应用程序是针对专业和学术用途量身定制的,将Chroma DB作为矢量数据库集成,以进行有效的PDF交互。此功能使用户可以在其设备上本地与自己的PDF文件互动。无论是用于审查业务报告,学术论文还是任何其他PDF文档,该应用都可以提供无缝的体验。它为用户提供了一种与PDF互动的有效方法,利用AI的力量理解和响应这些文档中的内容。这使其成为个人使用的宝贵工具,可以在其PDF文件中提取洞察力,摘要并与文本进行独特的对话形式。 Chroma网站
要开始进行本地多模式AI聊天,请克隆存储库,然后遵循以下简单步骤:
创建一个虚拟环境:我正在使用Python 3.10.12
升级PIP : pip install --upgrade pip
安装要求: pip install -r requirements.txt
Windows用户:安装可能对您有所不同,如果您遇到无法解决的错误,请在GitHub上打开一个问题。
设置本地模型:下载要实现的模型。这是我用于图像聊天的LLAVA模型(ggml-model-q5_k.gguf和mmproj-model-f16.gguf)。量化的Mistral模型形式构成TheBloke(Mistral-7b-instruct-v0.1.q5_k_m.gguf)。
自定义配置文件:检查配置文件,并相应地更改为您下载的模型。
可选 - 更改配置文件图片:将您的user_image.pnd和/或bot_image.png放置在chat_icons文件夹中。
在终端中输入命令:
python3 database_operations.py这将初始化聊天会话的SQLite数据库。streamlit run app.py