Структура, позволяющая мультимодальным моделям управлять компьютером.
Используя те же входы и выходы, что и оператор человека, модель просматривает экран и решает серию действий мыши и клавиатуры, чтобы достичь цели.

В Hyperwriteai мы разрабатываем Agent-1-Vision MultiModal Model с более точными прогнозами местоположения клика.
Вскоре мы будем предлагать доступ к API к нашей модели агента-1-Vision.
Если вы заинтересованы в получении доступа к этому API, зарегистрируйтесь здесь.
Self-Operating Computer pip install self-operating-computer
operate
vim .env , чтобы открыть .env и заменить старый ключ. 


operate-m Дополнительная модель теперь совместима с самостоятельной компьютерной структурой. Попробуйте Google gemini-pro-vision , следуя приведенным ниже инструкциям.
Начать operate с моделью Близнецов
operate -m gemini-pro-vision
Введите свой ключ Google AI Studio API, когда терминал побуждает вас к нему, если у вас нет, вы можете получить ключ здесь после настройки учетной записи Google AI Studio. Вам также может понадобиться авторизация учетных данных для настольного приложения. Мне потребовалось немного времени, чтобы заставить его работать, если кто -то знает более простой способ, сделайте PR.
-m claude-3Используйте Claude 3 с Vision, чтобы увидеть, как он складывается до GPT-4-Vision для работы компьютера. Перейдите к приборной панели Claude, чтобы получить клавишу API и запустите команду ниже, чтобы попробовать ее.
operate -m claude-3
-m llava Если вы хотите поэкспериментировать с самолетной компьютерной структурой, используя Llava на вашей собственной машине, вы можете с Ollama!
Примечание: Ollama в настоящее время поддерживает MacOS и Linux
Во -первых, установите Ollama на вашем компьютере с https://ollama.ai/download.
Как только Оллама будет установлен, потяните модель Llava:
ollama pull llava
Это загрузит модель на вашей машине, которая занимает приблизительно 5 ГБ хранилища.
Когда Ollama закончил вытягивать Llava, запустите сервер:
ollama serve
Вот и все! Теперь начните operate и выберите модель Llava:
operate -m llava
ВАЖНО: Показатели ошибок при использовании Llava очень высоки. Это просто предназначено для того, чтобы быть базой для создания, поскольку локальные мультимодальные модели со временем улучшаются.
Узнайте больше об Ollama в его репозитории GitHub
--voiceСтруктура поддерживает голосовые входы для цели. Попробуйте голос, следуя инструкциям ниже. Клонировать репо в каталог на вашем компьютере:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD в каталог :
cd self-operating-computer
Установите дополнительные requirements-audio.txt
pip install -r requirements-audio.txt
Установите требования устройства для пользователей Mac:
brew install portaudio
Для пользователей Linux:
sudo apt install portaudio19-dev python3-pyaudio
Запустить с помощью голосового режима
operate --voice
-m gpt-4-with-ocr Самолепая компьютерная структура теперь интегрирует возможности распознавания оптических символов (OCR) с режимом gpt-4-with-ocr . Этот режим дает GPT-4 Hash Map of Clickable Elements по координатам. GPT-4 может решить click «Элементы по тексту», а затем код ссылается на карту хэш, чтобы получить координаты для этого элемента GPT-4, который хотел щелкнуть.
Основываясь на недавних тестах, OCR работает лучше, чем som и Vanilla GPT-4, поэтому мы сделали его по умолчанию для проекта. Чтобы использовать режим OCR, вы можете просто написать:
operate или operate -m gpt-4-with-ocr также будет работать.
-m gpt-4-with-som марки Самолепая компьютерная структура теперь поддерживает подсказку (SOM), подсказывающую команду gpt-4-with-som . Этот новый метод визуальной подсказки расширяет возможности визуального заземления крупных мультимодальных моделей.
Узнайте больше о SOM -подсказке в подробной статье Arxiv: здесь.
Для этой первоначальной версии простая модель Yolov8 обучается для обнаружения кнопок, а файл best.pt включен в model/weights/ . Пользователям рекомендуется поменять свой файл best.pt для оценки улучшения производительности. Если ваша модель превосходит существующий, пожалуйста, внесите вклад, создав запрос на вытягивание (PR).
Начать operate с моделью SOM
operate -m gpt-4-with-som
Если вы хотите внести свой вклад, см. Appling.md.
Для любого вклада в улучшение этого проекта, не стесняйтесь обращаться к Джошу в Твиттере.
Для обсуждений в режиме реального времени и поддержки сообщества присоединяйтесь к нашему серверу Discord.
Оставайтесь в курсе последних событий:
Требуется модель gpt-4o . Чтобы разблокировать доступ к этой модели, вашей учетной записи необходимо потратить не менее 5 долларов на кредиты API. Предварительная оплата за эти кредиты разблокирует доступ, если вы еще не потратили минимум 5 долларов.
Узнайте больше здесь