rsllmダウンロードrsllmソースコードのダウンロード

rsllm

AI ソースコード

v0.6.4

ダウンロード

Rust AI Stream Analyzer Twitch Bot

rsllmは、ハギングフェイスからキャンドルフレームワークを活用している変圧器/テンソルコードの錆のAIパイプラインです。これは、AIモデルの相互作用とストリーム分析に対するシステムプログラミング言語アプローチを表します。 GPUでローカルに実行でき、M1/M2/M3 ARM GPUを装備したMACOSデバイスのサポートに焦点を当てています。このAIパイプラインは、地元の大型言語モデル（LLM）を錆と統合することを目的とした開発者と研究者向けに設計されており、チャットボットやその他のAIプログラムの外部依存関係とPythonコードの必要性をバイパスします。 RSLLMは、その中心で、錆環境内でテキスト、画像、音声を生成するためのローカルLLMの利用を強調し、リアルタイムのデータストリーム分析とAI駆動型コンテンツの作成のための堅牢な機能スイートを提供します。 RSLLMは、NDIと互換性のあるソフトウェアを介して、生成された安定した拡散画像とTTS音声出力を備えたTwitch ChannellチャットボットおよびNDIビデオ/オーディオを実行できます。 OBSをセットアップしてNDIフィードを取得し、Twitchチャンネルをセットアップし、カスタマイズ可能なTwitchチャンネルを完全にチャットとスピーキング/画像生成することができます。完全に駆動すると、Twitchストリーマーを多少自動化できます。また、MPEGTSストリームまたはOSシステムの統計も分析できます。必要に応じて、2つを組み合わせてチャットユーザーにコメントして、ストリームを効果的に分析するクエリを照会できます。

重要な機能

ローカルLLM ：Candleの錆ベースのLLM、ミストラル、ジェマを使用して、直接的かつ効率的なAI相互作用を行い、ローカル実行に優先順位を付けてMacos Metal GPUの全力を活用します。
包括的なAIアナライザー：入力を処理し、テキスト、音声、音声、画像間で出力を生成できる洗練されたAIアナライザーを埋め込み、AIに生成されたコンテンツのシームレスなフローを促進します。（進行中の作業）
音声と音声統合：Alexaに似た音声駆動型インタラクションにささやきを組み込む計画で、ユーザーは音声コマンドを使用してツールキットと通信し、応答してストリーミングテキスト入力を受け取ることができます。（計画された機能）
画像生成とNDI出力：テキストの説明からの画像の生成と、リアルタイムコンテンツの作成や放送など、幅広いアプリケーションのNDIを介した出力をサポートします。（ベータテストで）
TTSサポート：キャンドルは、MetaVoice（デフォルト、WIP）、OpenAI TTS API（高品質、リアルタイム）、およびMIMIC3 TTS API（ローカル、フリー）を使用してTTSを実装します。 MetaVoiceは金属GPU用に最適化されていますが、Openai TTS APIはコストでプレミアムスピーチを生成します。 MIMIC3 TTS APIでは、MIMIC3-SERVERを実行する必要がありますが、OpenAI TTS APIの優れた代替品を提供します。 mimic3 github
Twitch Chat Interactive AI ：リアルタイムのAIインタラクション用の統合Twitchチャット。ユーザーはチャットコマンドを介してツールキットに関与し、AIに生成された応答を受信できます。
安定した拡散画像生成：ろうそくの安定した拡散またはAutomatic111111111111111111111のいずれかをサポートします。 https://github.com/automatic1111/stable-diffusion-webui/

コアコンポーネント

キャンドルフレームワークの統合

HuggingfaceのプロジェクトであるCandleは、MistralやGemmaのようなRust-Native LLMを提供し、MacOSの金属GPU用に最適化されています。この統合により、LLMの局所実行が容易になり、AIモデルの相互作用の高性能と低遅延が確保されます。

llama.cpp LLMサーバーバックエンドのOpenai APIサポート

RSLLMの主な焦点はローカルLLMを実行することですが、Openai APIのサポートも提供し、必要に応じて外部AIモデルを活用できるようにします。この機能により、カスタムモデルを使用したさまざまなAI駆動型プロジェクトでの汎用性と幅広い適用性が保証されます。

リアルタイムAI分析とコンテンツ生成

RSLLMは、リアルタイムのデータストリームを分析し、テキスト、画像、音声などのAI駆動型コンテンツを生成することに優れています。音声入力をLLMのテキストコマンドに変換し、生成された出力を音声または視覚コンテンツとしてストリーミングできるようにする動的なインタラクションモデルを作成することを目的としています。

インストールと構成

前提条件

錆と貨物が設置されていることを確認してください。さび装置ガイド。
理想的には、M1/M2/M3 ARM GPUを備えたMACOSシステムです。 nvidiaは機能し、nvidia gpusを持っていないため、誰かがそれを修正する必要があります。
OBS NDIストリーミング出力用のNDIライブラリ。これはオプションです。

セットアップガイド

リポジトリをクローンします：

git clone https://github.com/groovybits/rsllm.git

プロジェクトディレクトリに移動します。
```
 cd rsllm
```

金属GPUサポートとNDI SDKサポートをコンパイルします。

./scripts/compile.sh # Script handles NDI SDK dependency and DYLD_LIBRARY_PATH

構成

copy .env.exampleを.envにexampleで、外部AIモデルを使用する場合はOpenai APIキーを含む設定をカスタマイズします。

使用法

RSLLMは、テキストベースのコンテンツの生成からネットワークストリームの分析や視覚的およびオーディオ入力の処理まで、幅広いAI駆動型の操作を促進するように設計されています。 NDIオーディオ出力や音声からテキストへの入力処理などの高度な機能は、ツールキットのインタラクティブな機能を強化することを目的としており、開発中です。

例コマンド

./scriptsディレクトリでスクリプトを使用します。

./scripts/compile.sh # Build RsLLM
./scripts/broadcast_personality.sh  # Full command line shown for most features (use personalities in ./personalities dir as an arg)
./scripts/mpeg_analyzer.sh # Experimental MpegTS Analyzer mode (WIP)
./scripts/mpeg_poetry.sh   # Fun poetry about MpegTS Broadcasting with stream input prompt injection
./scripts/system_health.sh # System health status from OS Stats prompt injection

完全なパイプラインでNDIでOBSにブロードキャスト：
```
./scripts/broadcast_personality.sh buddha
```

AIシステム分析のためにろうそくとOSの統計で実行：

cargo run --release --features fonts,ndi,mps,metavoice,audioplayer -- 
  --candle_llm gemma 
  --model-id " 2b-it " 
  --max-tokens 800 
  --temperature 0.8 
  --ai-os-stats 
  --sd-image 
  --ndi-images 
  --ndi-audio 
  --system-prompt " You create image prompts from OS system stats health state. " 
  --query " How is my system doing? Create a report on the system health as visual image descriptions. "

強化された出力機能と今後の機能

画像およびTTS音声オーディオのNDI出力

RSLLMは、出力機能を強化して、画像とTTS（テキストからスピーチ）オーディオのNDI（ネットワークデバイスインターフェイス）サポートを含め、IPネットワーク上の高品質の低遅延ビデオストリーミングを促進しています。

（オプション）NDI SDKインストール：compile.shスクリプトは、libndi.dylibをダウンロードします。必要に応じて、ここからNDI SDKをダウンロードしてインストールできます。このSDKは、NDI出力を表示し、他のツールを探索するのに役立ちます。
構成手順：
1. 貨物ビルドコマンドに--features ndiを追加して、ビルドにNDIサポートを含めるように追加します。
2. scripts/compile.shを実行します。これは、macosに最適なlibndi.dylibを取得します。
3. cargo --features=ndi 、 DYLD_LIBRARY_PATH環境変数を設定します。
```
 export DYLD_LIBRARY_PATH= ` pwd ` : $DYLD_LIBRARY_PATH
```
追加の構成：CLIを介してハギングフェイスハブにログインすると、潜在的な警告を解決できます。 huggingface-cli login実行して認証します。

metavoiceTTSテキストからスピーチ（WIP）

LLMインタラクションのコアラストフレームワークであるキャンドルには、画期的なテキスト対策（TTS）テクノロジーであるMetaVoiceが含まれています。この機能が改善されると、MACOSの金属GPU最適化とシームレスに統合された純粋な錆ベースのLLM、TTI（テキストツーイメージ）、およびTTS機能が可能になります。

開発状況：MetaVoice統合が行われ、参照実装の品質に合わせてキャンドルで最適化されます。
予想される利点：完全に最適化されると、MetaVoiceは、ローカルLLMでのレイテンシが低いテキストから生涯のスピーチを生成するツールキットの能力を大幅に向上させます。また、小さなクリップから音声を1ショットし、そこからスピーチを生成する機能も提供します。とりあえず、openaiを使用して、品質/リアルタイム生成の音声オーディオを使用することをお勧めします。

RSLLMの使命は、MACOSに関するAI駆動型コンテンツの作成と分析のための汎用性の高い高性能ツールキットの実装を調査および調査し、金属GPUとRustの効率を最大限に活用することです。

ロードマップ

優先度：

ローカルデータベース（sqliteまたはmongodbなど）を使用して履歴を保存し、ragのためにChroma dbに供給します。
MPEGTSチャット現在および履歴MPEG-TSストリームデータを介したフリーフォーム分析。
画像/TTSのレイテンシとアウトプットの非同期調整を改善します。画像とオーディオにはNDIプレキューを使用して、同期を確保し、遅延を最小限に抑えます。
ドキュメントキャッシングと埋め込みにChromiumを使用してRAG（検索拡張生成）を実装し、拡張ドキュメントベースのLLMコンテキストを提供します。
キャンドルが利用可能になると、MetaVoiceの修正をマージします（WIP）。
ビデオフレームの変更を検出し、繰り返しコンテンツシーケンスを認識して学習し、商用休憩を検証し、広告挿入を検出するために、フレームフィンガープリントに知覚ハッシュ（DCT64ベース）を実装します。 SCTE-35を統合し、さまざまな品質チェック、ブレーク/ロゴの忠実度の確認、存在検出のために、フィンガープリントコンテンツのデータベースを維持します。
デーモンモードが実行され、ZeromQ入力を介してリクエストをリッスンし、出力に渡すことができます。
LLMSおよびOpenai APIのオプションを展開します。

将来の強化：

FFMPEG-Next-Sysを利用して、ビデオとオーディオをリアルタイムで処理して、フレーム、オーディオ、テキストからビデオへの生成、ビデオを変換してムージックビデオやテーマのストーリーを作成します。 LLMとFFMPEGを組み合わせる可能性を探ります。
MPEG-TSストリーム、レポート、およびAI駆動型の問題検出のリアルタイム分析のためのMPEGTSアナライザーを強化します。
ネットワークアナライザーとシステムアナライザーを改善します。
RAGにChroma DBを使用して、関連情報を使用してプロンプトを増強するためにドキュメントを使用します。
シリアル化、降下、およびモジュール式ZEROMQプロトコル通信のためにCap'n Protoを実装します。
結果に基づいて、気分ベースの音楽生成にメタムジックを統合します。
一貫したフレームコンテキストでトーキングヘッドビデオ生成を開発し、フレーム内でオブジェクトが同じままであることを確認します。
オーディオ入力、LLM摂取、ビデオ字回りにささやくキャンドルを使用してスピーチとテキストを実装します。
LLMのフリーフォーム入力オプションを許可して、ユーザーの意図を解釈します。
ビデオ処理などの新しいタスクについては、Pythonで動的コード生成を探索します（リスクを考慮してください）。
最終結果に達するまで、複数のパスにつながるアウトラインを使用して、反復的および多世代出力を実装します。
オーディオ入力のためにささやくキャンドルを使用してテキストにスピーチを利用し、会話型AIのLLMへの音声コマンドを有効にします。

貢献

特に機能開発、パフォーマンスの最適化、ドキュメントなどの分野では、貢献が温かく歓迎されています。専門知識は、ツールキットの機能とユーザーエクスペリエンスを大幅に向上させることができます。

ライセンス

このプロジェクトは、MITライセンスの下でライセンスされています。詳細については、ライセンスファイルを参照してください。

謝辞

ろうそくさび変圧器/テンソルによるハグFace：キャンドル
API仕様用のOpenai：Openai
TTS統合のためのOpenai：Openai
TTS統合のMetaVoice：MetaVoice
TTS統合のMIMIC3：MIMIC3
テキストへのスピーチのささやき：ささやきます
Google Gemini LLM：Gemini
ミストラルLLM：ミストラル

著者

Chris Kennedyは、Macos Metal GPU Rust LLM Toolkitで革新的なAIソリューションの開発をリードしています。 2024年2月。

純粋な錆のMacOS ARM CPUでのビデオテクノロジーおよびマルチモーダル入力/出力とのAI統合の境界を押し広げることに取り組んでおり、メディア開発者と研究者がAI主導のプロジェクトのための強力で効率的で汎用性の高いツールにアクセスできるようにします。

拡大する

追加情報

バージョン v0.6.4
タイプ AI ソースコード
更新時間 2025-08-22
サイズ 415.25KB
から Github

rsllm

Rust AI Stream Analyzer Twitch Bot

重要な機能

コアコンポーネント

キャンドルフレームワークの統合

llama.cpp LLMサーバーバックエンドのOpenai APIサポート

リアルタイムAI分析とコンテンツ生成

インストールと構成

前提条件

セットアップガイド

構成

使用法

例コマンド

強化された出力機能と今後の機能

画像およびTTS音声オーディオのNDI出力

metavoiceTTSテキストからスピーチ（WIP）

ロードマップ

優先度：

将来の強化：

貢献

ライセンス

謝辞

著者

ML stack

awesome free chatgpt

pywin_contextmenu

promptl

tick.chat

FastLoRAChat

chat.petals.dev

GPT Prompt Templates

GPTyped

ML stack

awesome free chatgpt

pywin_contextmenu

Google Dorks

shepherd

mongo express