マルチモーダルモデルがコンピューターを操作できるようにするためのフレームワーク。
人間のオペレーターと同じ入力と出力を使用すると、モデルは画面を表示し、一連のマウスおよびキーボードアクションを決定して目的に到達します。

HyperWriteaiでは、より正確なクリック場所の予測を備えたマルチモーダルモデルをエージェント1ビジョンを開発しています。
まもなくAPIアクセスをAgent-1-Visionモデルに提供します。
このAPIへのアクセスを取得することに興味がある場合は、こちらからサインアップしてください。
Self-Operating Computerを実行します pip install self-operating-computer
operate
vim .envを実行して.envを開き、古いキーを置き換えます。 


operateモードを使用します-m追加のモデルは、自己動作コンピューターフレームワークと互換性があります。以下の指示に従って、Googleのgemini-pro-visionお試しください。
Geminiモデルでoperate開始します
operate -m gemini-pro-vision
Google AI Studio APIキーを入力してください。端末がプロンプトがある場合は、Google AI Studioアカウントを設定した後、ここでキーを取得できます。また、デスクトップアプリケーションの認定資格情報も必要になる場合があります。より簡単な方法を知っている場合は、それを機能させるのに少し時間がかかりました。PRを作ってください。
-m claude-3お試しくださいClaude 3を使用してVisionを使用して、コンピューターの操作時にGPT-4-visionまでどのように積み重ねるかを確認します。 Claudeダッシュボードに移動してAPIキーを取得し、以下のコマンドを実行して試してみます。
operate -m claude-3
-m llavaを介してホストされたLlavaをお試しください自分のマシンでLlavaを使用して自動操作コンピューターフレームワークを試したい場合は、Ollamaを使用できます。
注:Ollamaは現在、MacOSとLinuxのみをサポートしています
まず、https://ollama.ai/downloadからオラマをマシンにインストールします。
Ollamaがインストールされたら、Llavaモデルを引いてください。
ollama pull llava
これにより、約5 GBのストレージが必要なマシンにモデルがダウンロードされます。
OllamaがLlavaの引っ張りが終了したら、サーバーを起動します。
ollama serve
それでおしまい! operate開始し、LLAVAモデルを選択します。
operate -m llava
重要: Llavaを使用する場合のエラー率は非常に高いです。これは、地元のマルチモーダルモデルが時間とともに改善するため、単に構築するための基盤となることを意図しています。
GitHubリポジトリのOllamaの詳細をご覧ください
--voiceフレームワークは、目標の音声入力をサポートしています。以下の指示に従って音声を試してください。コンピューターのディレクトリにリポジトリをクローンします。
git clone https://github.com/OthersideAI/self-operating-computer.git
ディレクトリへのCD :
cd self-operating-computer
追加のrequirements-audio.txtをインストールします
pip install -r requirements-audio.txt
Macユーザーのデバイス要件をインストールしてください:
brew install portaudio
Linuxユーザーの場合:
sudo apt install portaudio19-dev python3-pyaudio
音声モードで実行します
operate --voice
-m gpt-4-with-ocr自動操作コンピューターフレームワークは、光学文字認識(OCR)機能をgpt-4-with-ocrモードと統合するようになりました。このモードは、GPT-4が座標によりクリック可能な要素のハッシュマップを提供します。 GPT-4はテキストごとに要素clickことを決定でき、コードはハッシュマップを参照して、その要素GPT-4の座標をクリックしたいと考えています。
最近のテストに基づいて、OCRはsomおよびVanilla GPT-4よりも優れているため、プロジェクトのデフォルトにしました。 OCRモードを使用するには、単に書くことができます。
operateまたはoperate -m gpt-4-with-ocrも機能します。
-m gpt-4-with-som自動操作コンピューターフレームワークはgpt-4-with-somコマンドでプロンプトをプロンプトするセットマーク(SOM)をサポートするようになりました。この新しい視覚プロンプトメソッドは、大規模なマルチモーダルモデルの視覚的な接地機能を強化します。
詳細なArxivペーパーでSOMプロンプトの詳細については、こちらをご覧ください。
この初期バージョンでは、シンプルなYolov8モデルがボタン検出用にトレーニングされ、 best.ptファイルはmodel/weights/に含まれています。ユーザーは、パフォーマンスの改善を評価するために、 best.ptファイルを交換することをお勧めします。モデルが既存のモデルよりも優れている場合は、プルリクエスト(PR)を作成して貢献してください。
SOMモデルでoperate開始します
operate -m gpt-4-with-som
自分自身を貢献したい場合は、貢献を参照してください。md。
このプロジェクトの改善に関する情報については、TwitterでJoshにお気軽にご連絡ください。
リアルタイムのディスカッションとコミュニティサポートについては、Discord Serverに参加してください。
最新の開発で最新情報を入手してください。
gpt-4oモデルが必要です。このモデルへのアクセスのロックを解除するには、アカウントがAPIクレジットに少なくとも5ドルを費やす必要があります。これらのクレジットの前払いは、最低5ドルをまだ費やしていない場合、アクセスのロックを解除します。
詳細はこちらをご覧ください