Multimodal AI Chat ApplicationダウンロードMultimodal AI Chat Applicationソースコードダウンロード

Multimodal AI Chat Application

その他のソースコード

1.0.0

ダウンロード

マルチモーダル - チャットアプリケーション

特徴

量子化されたモデル統合：このアプリは、「量子化モデル」と呼ばれるものを使用します。これらは、私たちのほとんどが自宅や私たちのオフィスで持っているような、通常の消費者ハードウェアでうまく機能するように設計されているため、特別です。通常、これらのモデルの元のバージョンは非常に大きく、それらを実行するにはより強力なコンピューターが必要です。しかし、量子化されたモデルは、あまりパフォーマンスを失うことなく、より小さく、より効率的になるように最適化されています。これは、非常に強力なコンピューターを必要とせずに、このアプリとその機能を使用できることを意味します。ブロークからの量子化されたモデル
Whisper AIとのオーディオチャット：Whisper AIの堅牢な転写機能を活用すると、このアプリは洗練されたオーディオメッセージングエクスペリエンスを提供します。ささやきのAIの統合により、音声入力に対する正確な解釈と応答が可能になり、会話の自然な流れが向上します。ささやきモデル
Llavaとの画像チャット：アプリは、画像処理のためにLlavaを統合します。これは、画像の埋め込みを理解するために装備された微調整されたLlamaモデルです。これらの埋め込みは、クリップモデルを使用して生成され、Llavaは高度なテキストと画像の理解をまとめるパイプラインのように機能します。 Llavaを使用すると、特に視覚的なコンテンツについての処理と会話に関しては、チャットエクスペリエンスがよりインタラクティブで魅力的になります。 Llavaロード用のLlama-cpp-pythonリポジトリ
PDF Chroma DBとのチャット：アプリは、プロフェッショナルとアカデミックの両方の用途に合わせて調整されており、Chroma DBを効率的なPDF相互作用のためのベクターデータベースとして統合しています。この機能により、ユーザーはデバイス上で独自のPDFファイルをローカルにエンゲージできます。ビジネスレポート、アカデミックペーパー、またはその他のPDFドキュメントをレビューするためであろうと、このアプリはシームレスなエクスペリエンスを提供します。ユーザーがPDFと対話する効果的な方法を提供し、AIの力を活用して、これらのドキュメント内のコンテンツを理解して応答します。これにより、個人的な使用のための貴重なツールになります。ここでは、洞察、要約を抽出し、PDFファイルのテキストとの独自の対話形式に従事することができます。クロマウェブサイト

はじめる

ローカルマルチモーダルAIチャットを開始するには、リポジトリをクローンして、これらの簡単な手順に従ってください。

仮想環境の作成：Python 3.10.12を現在使用しています
アップグレードPIP ： pip install --upgrade pip
インストール要件： pip install -r requirements.txt
Windowsユーザー：インストールは少し異なる場合があります。解決できないエラーが発生した場合は、GitHubで問題を開いてください。
ローカルモデルのセットアップ：実装するモデルをダウンロードします。これは、私が画像チャット（GGML-Model-Q5_K.GgufおよびMMProj-Model-F16.gguf）に使用したLlavaモデルです。量子化されたミストラルモデルは、ブローク（Mistral-7B-Instruct-V0.1.q5_k_m.gguf）を形成します。
構成ファイルのカスタマイズ：構成ファイルを確認し、ダウンロードしたモデルにそれに応じて変更します。
オプション - プロファイルの変更写真：user_image.pndおよび/またはbot_image.pngをchat_iconsフォルダー内に配置します。
ターミナルにコマンドを入力してください：
1. python3 database_operations.pyこれにより、チャットセッションのSQLiteデータベースが初期化されます。
2. streamlit run app.py