Intégration de modèle quantifiée : cette application utilise ce qu'on appelle les «modèles quantifiés». Ceux-ci sont spéciaux car ils sont conçus pour bien fonctionner sur le matériel de consommation régulier, comme le genre que la plupart d'entre nous ont à la maison ou dans nos bureaux. Normalement, les versions originales de ces modèles sont vraiment grandes et ont besoin d'ordinateurs plus puissants pour les exécuter. Mais les modèles quantifiés sont optimisés pour être plus petits et plus efficaces, sans perdre beaucoup de performances. Cela signifie que vous pouvez utiliser cette application et ses fonctionnalités sans avoir besoin d'un ordinateur super puissant. Modèles quantifiés de TheBloke
Chattant audio avec Whisper AI : Tireing Whisper Ai d'Ai Capacités de transcription, cette application offre une expérience de messagerie audio sophistiquée. L'intégration de Whisper AI permet une interprétation et une réponse précises aux entrées vocales, améliorant le flux naturel des conversations. Modèles de chuchotement
Chattant d'image avec llava : l'application intègre Llava pour le traitement d'image, qui est essentiellement un modèle LLAMA affiné équipé pour comprendre les incorporations d'images. Ces intérêts sont générés à l'aide d'un modèle de clip, ce qui fait de la fonction LLAVA comme un pipeline qui rassemble une compréhension avancée du texte et de l'image. Avec Llava, l'expérience de chat devient plus interactive et engageante, surtout en ce qui concerne la manipulation et la conversation sur le contenu visuel. Répo Llama-Cpp-Python pour le chargement llava
PDF bavardant avec Chroma DB : L'application est adaptée à des utilisations professionnelles et académiques, intégrant Chroma DB comme base de données vectorielle pour des interactions PDF efficaces. Cette fonctionnalité permet aux utilisateurs de s'engager avec leurs propres fichiers PDF localement sur leur appareil. Que ce soit pour examiner les rapports commerciaux, les documents académiques ou tout autre document PDF, l'application offre une expérience transparente. Il fournit un moyen efficace pour les utilisateurs d'interagir avec leurs PDF, en tirant parti de la puissance de l'IA pour comprendre et répondre au contenu dans ces documents. Cela en fait un outil précieux pour un usage personnel, où l'on peut extraire des informations, des résumés et s'engager dans une forme unique de dialogue avec le texte dans leurs fichiers PDF. Site Web de chrome
Pour commencer avec le chat AI multimodal local, clonez le référentiel et suivez ces étapes simples:
Créer un environnement virtuel : j'utilise actuellement Python 3.10.12
Mise à niveau PIP : pip install --upgrade pip
Installation des exigences : pip install -r requirements.txt
Utilisateurs de Windows: l'installation peut différer un peu pour vous, si vous rencontrez des erreurs que vous ne pouvez pas résoudre, veuillez ouvrir un problème ici sur GitHub.
Configuration des modèles locaux : Téléchargez les modèles que vous souhaitez implémenter. Voici le modèle LLAVA que j'ai utilisé pour le chat d'image (GGML-model-Q5_K.GGUF et MMPROJ-MODEL-F16.GGUF). Et le modèle Mistral quantifié forme thebloke (Mistral-7B-Instruct-V0.1.Q5_K_M.GGUF).
Personnalisez le fichier de configuration : vérifiez le fichier de configuration et modifiez en conséquence avec les modèles que vous avez téléchargés.
Facultatif - Modifiez les images du profil : placez votre user_image.pnd et / ou bot_image.png dans le dossier Chat_icons.
Entrez les commandes dans le terminal :
python3 database_operations.py Ceci d'initialisera la base de données SQLite pour les sessions de chat.streamlit run app.py