Download Multimodal AI Chat Application - Download für Multimodal AI Chat Application Quellcode

Multimodal AI Chat Application

Anderer Quellcode

1.0.0

Herunterladen

Multimodal-AI-Chat-Anwendung

Merkmale

Quantisierte Modellintegration : Diese App verwendet sogenannte "quantisierte Modelle". Diese sind etwas Besonderes, weil sie so konzipiert sind, dass sie auf regelmäßigen Verbraucherhardware gut funktionieren, wie die Art, die die meisten von uns zu Hause oder in unseren Büros haben. Normalerweise sind die ursprünglichen Versionen dieser Modelle wirklich groß und benötigen leistungsfähigere Computer, um sie auszuführen. Quantisierte Modelle sind jedoch so optimiert, dass sie kleiner und effizienter sind, ohne viel Leistung zu verlieren. Dies bedeutet, dass Sie diese App und ihre Funktionen verwenden können, ohne einen super leistungsfähigen Computer zu benötigen. Quantisierte Modelle aus dem Blot
Audio -Chat mit Whisper AI : Nutzung der robusten Transkriptionsfunktionen von Whisper Ai bietet ein ausgeklügeltes Audio -Messaging -Erlebnis. Die Integration von Whisper AI ermöglicht eine genaue Interpretation und Reaktion auf Spracheingänge, wodurch der natürliche Fluss von Gesprächen verbessert wird. Flüstermodelle
Image Chating mit LLAVA : Die App integriert LLAVA für die Bildverarbeitung. Dies ist im Wesentlichen ein fein abgestimmeltes Lama-Modell, das zum Verständnis von Bildeinbettungen ausgestattet ist. Diese Einbettungen werden unter Verwendung eines Clip -Modells erzeugt, wodurch LLAVA -Funktion wie eine Pipeline funktioniert, die erweiterten Text und Bildverständnis zusammenbringt. Bei LLAVA wird das Chat -Erlebnis interaktiver und ansprechender, insbesondere wenn es um den Umgang und die Gespräch über visuelle Inhalte geht. Lama-CPP-Python Repo für Llava-Laden
PDF -Chat mit Chroma DB : Die App ist sowohl auf professionelle als auch auf akademische Anwendungen zugeschnitten und integriert Chroma DB als Vektordatenbank für effiziente PDF -Interaktionen. Mit dieser Funktion können Benutzer lokal auf ihrem Gerät mit ihren eigenen PDF -Dateien in Kontakt treten. Unabhängig davon, ob es darum geht, Geschäftsberichte, akademische Papiere oder ein anderes PDF -Dokument zu überprüfen, bietet die App eine nahtlose Erfahrung. Es bietet den Benutzern eine effektive Möglichkeit, mit ihren PDFs zu interagieren und die Leistung von KI zu nutzen, um Inhalte in diesen Dokumenten zu verstehen und auf Inhalte zu reagieren. Dies macht es zu einem wertvollen Instrument für den persönlichen Gebrauch, bei dem Erkenntnisse, Zusammenfassungen extrahieren und eine einzigartige Form des Dialogs mit dem Text in ihren PDF -Dateien betreiben können. Chroma -Website

Erste Schritte

Um mit dem lokalen multimodalen KI -Chat zu beginnen, klonen Sie das Repository und befolgen Sie diese einfachen Schritte:

Erstellen Sie eine virtuelle Umgebung : Ich verwende derzeit Python 3.10.12
Upgrade PIP : pip install --upgrade pip
Installation von Anforderungen : pip install -r requirements.txt
Windows -Benutzer: Die Installation kann sich für Sie ein wenig unterscheiden. Wenn Sie auf Fehler stoßen, können Sie hier auf GitHub ein Problem auf GitHub eröffnen.
Einrichten lokaler Modelle : Laden Sie die Modelle herunter, die Sie implementieren möchten. Hier ist das LLAVA-Modell, das ich für den Image-Chat (GGML-Model-Q5_K.GGUF und MMPROJ-MODEL-F16.GGUF) verwendet habe. Und die quantisierte Mistral-Modellform TheBloke (Mistral-7b-Instruct-V0.1.q5_k_m.gguf).
Konfigurationsdatei anpassen : Überprüfen Sie die Konfigurationsdatei und ändern Sie entsprechend den von Ihnen heruntergeladenen Modellen.
Optional - Profilbilder ändern : Platzieren Sie Ihre user_image.pnd und/oder bot_image.png im Ordner chat_icons.
Geben Sie Befehle in Terminal ein :
1. python3 database_operations.py Dies initialisiert die SQLite -Datenbank für die Chat -Sitzungen.
2. streamlit run app.py

Mögliche Verbesserungen

~~Modell Caching hinzufügen.~~
~~Fügen Sie Bilder und Audio hinzu, um den Chat -Historie zu speichern und zu laden.~~
~~Verwenden Sie eine Datenbank, um den Chat -Verlauf zu speichern.~~
Integrieren Sie Ollama, Openai, Gemini oder andere Modellanbieter.
Fügen Sie das Bildgeneratormodell hinzu.
Authentifizierungsmechanismus.
Thema ändern.
Separate Frontend- und Backend -Code für eine bessere Bereitstellung.

Expandieren

Zusätzliche Informationen