self operating computerのダウンロード - self operating computerソースコードのダウンロード

self operating computer

その他のソースコード

update to `1.4.6`

ダウンロード

自動操作コンピューターフレームワーク

マルチモーダルモデルがコンピューターを操作できるようにするためのフレームワーク。

人間のオペレーターと同じ入力と出力を使用すると、モデルは画面を表示し、一連のマウスおよびキーボードアクションを決定して目的に到達します。

重要な機能

互換性：さまざまなマルチモーダルモデル向けに設計されています。
統合：現在、GPT-4O、Gemini Pro Vision、Claude 3、Llavaと統合されています。
将来の計画：追加モデルのサポート。

継続的な開発

HyperWriteaiでは、より正確なクリック場所の予測を備えたマルチモーダルモデルをエージェント1ビジョンを開発しています。

エージェント-1-VisionモデルAPIアクセス

まもなくAPIアクセスをAgent-1-Visionモデルに提供します。

このAPIへのアクセスを取得することに興味がある場合は、こちらからサインアップしてください。

デモ

final-low.mp4

`Self-Operating Computer`を実行します

プロジェクトをインストールします

 pip install self-operating-computer

プロジェクトを実行します

 operate

Openaiキーを入力してください：持っていない場合は、ここでOpenaiキーを取得できます。後のポイントでキーを変更する必要がある場合は、 vim .envを実行して.envを開き、古いキーを置き換えます。

端末アプリに必要なアクセス許可を与えます。最後のステップとして、端末アプリは、Macの「システム設定」の「セキュリティとプライバシー」ページで「画面録画」と「アクセシビリティ」の許可を求めます。

`operate`モードを使用します

マルチモーダルモデル`-m`

追加のモデルは、自己動作コンピューターフレームワークと互換性があります。以下の指示に従って、Googleのgemini-pro-visionお試しください。

Geminiモデルでoperate開始します

 operate -m gemini-pro-vision

Google AI Studio APIキーを入力してください。端末がプロンプトがある場合は、Google AI Studioアカウントを設定した後、ここでキーを取得できます。また、デスクトップアプリケーションの認定資格情報も必要になる場合があります。より簡単な方法を知っている場合は、それを機能させるのに少し時間がかかりました。PRを作ってください。

Claude `-m claude-3`お試しください

Claude 3を使用してVisionを使用して、コンピューターの操作時にGPT-4-visionまでどのように積み重ねるかを確認します。 Claudeダッシュボードに移動してAPIキーを取得し、以下のコマンドを実行して試してみます。

 operate -m claude-3

Ollama `-m llava`を介してホストされたLlavaをお試しください

自分のマシンでLlavaを使用して自動操作コンピューターフレームワークを試したい場合は、Ollamaを使用できます。
注：Ollamaは現在、MacOSとLinuxのみをサポートしています

まず、https：//ollama.ai/downloadからオラマをマシンにインストールします。

Ollamaがインストールされたら、Llavaモデルを引いてください。

 ollama pull llava

これにより、約5 GBのストレージが必要なマシンにモデルがダウンロードされます。

OllamaがLlavaの引っ張りが終了したら、サーバーを起動します。

 ollama serve

それでおしまい！ operate開始し、LLAVAモデルを選択します。

 operate -m llava

重要： Llavaを使用する場合のエラー率は非常に高いです。これは、地元のマルチモーダルモデルが時間とともに改善するため、単に構築するための基盤となることを意図しています。

GitHubリポジトリのOllamaの詳細をご覧ください

音声モード`--voice`

フレームワークは、目標の音声入力をサポートしています。以下の指示に従って音声を試してください。コンピューターのディレクトリにリポジトリをクローンします。

 git clone https://github.com/OthersideAI/self-operating-computer.git

ディレクトリへのCD ：

 cd self-operating-computer

追加のrequirements-audio.txtをインストールします

 pip install -r requirements-audio.txt

Macユーザーのデバイス要件をインストールしてください：

 brew install portaudio

Linuxユーザーの場合：

 sudo apt install portaudio19-dev python3-pyaudio

音声モードで実行します

 operate --voice

光学文字認識モード`-m gpt-4-with-ocr`

自動操作コンピューターフレームワークは、光学文字認識（OCR）機能をgpt-4-with-ocrモードと統合するようになりました。このモードは、GPT-4が座標によりクリック可能な要素のハッシュマップを提供します。 GPT-4はテキストごとに要素clickことを決定でき、コードはハッシュマップを参照して、その要素GPT-4の座標をクリックしたいと考えています。

最近のテストに基づいて、OCRはsomおよびVanilla GPT-4よりも優れているため、プロジェクトのデフォルトにしました。 OCRモードを使用するには、単に書くことができます。

operateまたはoperate -m gpt-4-with-ocrも機能します。

セットオブマークプロンプト`-m gpt-4-with-som`

自動操作コンピューターフレームワークはgpt-4-with-somコマンドでプロンプトをプロンプトするセットマーク（SOM）をサポートするようになりました。この新しい視覚プロンプトメソッドは、大規模なマルチモーダルモデルの視覚的な接地機能を強化します。

詳細なArxivペーパーでSOMプロンプトの詳細については、こちらをご覧ください。

この初期バージョンでは、シンプルなYolov8モデルがボタン検出用にトレーニングされ、 best.ptファイルはmodel/weights/に含まれています。ユーザーは、パフォーマンスの改善を評価するために、 best.ptファイルを交換することをお勧めします。モデルが既存のモデルよりも優れている場合は、プルリクエスト（PR）を作成して貢献してください。

SOMモデルでoperate開始します

 operate -m gpt-4-with-som

貢献は歓迎されています！：

自分自身を貢献したい場合は、貢献を参照してください。md。

フィードバック

このプロジェクトの改善に関する情報については、TwitterでJoshにお気軽にご連絡ください。

私たちのDiscordコミュニティに参加してください

リアルタイムのディスカッションとコミュニティサポートについては、Discord Serverに参加してください。

すでにメンバーの場合は、＃self-operating-computerのディスカッションに参加してください。
新品の場合は、最初にDiscordサーバーに参加してから、＃self-operating-computerに移動します。

詳細については、HyperWriteaiをフォローしてください

最新の開発で最新情報を入手してください。

TwitterでHyperWriteaiをフォローしてください。
LinkedInでHyperWriteaiをフォローしてください。

互換性

このプロジェクトは、Mac OS、Windows、Linux（Xサーバーがインストールされている）と互換性があります。

OpenAIレート制限ノート

gpt-4oモデルが必要です。このモデルへのアクセスのロックを解除するには、アカウントがAPIクレジットに少なくとも5ドルを費やす必要があります。これらのクレジットの前払いは、最低5ドルをまだ費やしていない場合、アクセスのロックを解除します。
詳細はこちらをご覧ください

拡大する

追加情報

バージョン update to `1.4.6`
タイプその他のソースコード
更新時間 2025-03-01
サイズ 6.31MB
から Github

self operating computer

自動操作コンピューターフレームワーク

重要な機能

継続的な開発

エージェント-1-VisionモデルAPIアクセス

デモ

`Self-Operating Computer`を実行します

`operate`モードを使用します

マルチモーダルモデル`-m`

Claude `-m claude-3`お試しください

Ollama `-m llava`を介してホストされたLlavaをお試しください

音声モード`--voice`

光学文字認識モード`-m gpt-4-with-ocr`

セットオブマークプロンプト`-m gpt-4-with-som`

貢献は歓迎されています！：

フィードバック

私たちのDiscordコミュニティに参加してください

詳細については、HyperWriteaiをフォローしてください

互換性

OpenAIレート制限ノート

GitHub sgrebnov/cordova plugin background download

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

セルフケア目標トラッカーアプリ

キーホルダーメーカーモバイル版（護身キーホルダーゲーム）

自立

自己隔離

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf

self operating computer

自動操作コンピューターフレームワーク

重要な機能

継続的な開発

エージェント-1-VisionモデルAPIアクセス

デモ

Self-Operating Computerを実行します

operateモードを使用します

マルチモーダルモデル-m

Claude -m claude-3お試しください

Ollama -m llavaを介してホストされたLlavaをお試しください

音声モード--voice

光学文字認識モード-m gpt-4-with-ocr

セットオブマークプロンプト-m gpt-4-with-som

貢献は歓迎されています！：

フィードバック

私たちのDiscordコミュニティに参加してください

詳細については、HyperWriteaiをフォローしてください

互換性

OpenAIレート制限ノート

`Self-Operating Computer`を実行します

`operate`モードを使用します

マルチモーダルモデル`-m`

Claude `-m claude-3`お試しください

Ollama `-m llava`を介してホストされたLlavaをお試しください

音声モード`--voice`

光学文字認識モード`-m gpt-4-with-ocr`

セットオブマークプロンプト`-m gpt-4-with-som`