量化模型集成:此應用使用所謂的“量化模型”。這些之所以特別,是因為它們的設計旨在在常規消費硬件上工作,就像我們大多數人在家中或辦公室中所擁有的那種一樣。通常,這些模型的原始版本確實很大,需要更強大的計算機來運行它們。但是量化的模型被優化為更小,更高效,而不會失去太多性能。這意味著您可以使用此應用程序及其功能,而無需超級強大的計算機。來自TheBloke的量化模型
音頻與Whisper AI :利用Whisper AI的強大轉錄功能,該應用程序提供了精緻的音頻消息經驗。 Whisper AI的整合允許對語音輸入進行準確的解釋和響應,從而增強了對話的自然流動。耳語模型
與Llava聊天的圖像:該應用集成了LLAVA用於圖像處理,這實質上是一個精心調整的Llama模型,可以理解圖像嵌入。這些嵌入是使用剪輯模型生成的,使Llava的功能就像管道一樣,將高級文本和圖像理解融合在一起。借助Llava,聊天體驗變得更加互動和引人入勝,尤其是在處理和交談視覺內容時。 Llama-CPP-Python Repo用於Llava Loading
PDF與Chroma DB聊天:該應用程序是針對專業和學術用途量身定制的,將Chroma DB作為矢量數據庫集成,以進行有效的PDF交互。此功能使用戶可以在其設備上本地與自己的PDF文件互動。無論是用於審查業務報告,學術論文還是任何其他PDF文檔,該應用都可以提供無縫的體驗。它為用戶提供了一種與PDF互動的有效方法,利用AI的力量理解和響應這些文檔中的內容。這使其成為個人使用的寶貴工具,可以在其PDF文件中提取洞察力,摘要並與文本進行獨特的對話形式。 Chroma網站
要開始進行本地多模式AI聊天,請克隆存儲庫,然後遵循以下簡單步驟:
創建一個虛擬環境:我正在使用Python 3.10.12
升級PIP : pip install --upgrade pip
安裝要求: pip install -r requirements.txt
Windows用戶:安裝可能對您有所不同,如果您遇到無法解決的錯誤,請在GitHub上打開一個問題。
設置本地模型:下載要實現的模型。這是我用於圖像聊天的LLAVA模型(ggml-model-q5_k.gguf和mmproj-model-f16.gguf)。量化的Mistral模型形式構成TheBloke(Mistral-7b-instruct-v0.1.q5_k_m.gguf)。
自定義配置文件:檢查配置文件,並相應地更改為您下載的模型。
可選 - 更改配置文件圖片:將您的user_image.pnd和/或bot_image.png放置在chat_icons文件夾中。
在終端中輸入命令:
python3 database_operations.py這將初始化聊天會話的SQLite數據庫。streamlit run app.py