Скачать self operating computer - Скачать self operating computer код.

self operating computer

Другой исходный код

update to `1.4.6`

Скачать

Самолепая компьютерная структура

Структура, позволяющая мультимодальным моделям управлять компьютером.

Используя те же входы и выходы, что и оператор человека, модель просматривает экран и решает серию действий мыши и клавиатуры, чтобы достичь цели.

Ключевые функции

Совместимость : разработан для различных мультимодальных моделей.
Интеграция : в настоящее время интегрируется с GPT-4O, Gemini Pro Vision, Claude 3 и Llava.
Планы на будущее : поддержка дополнительных моделей.

Непрерывное развитие

В Hyperwriteai мы разрабатываем Agent-1-Vision MultiModal Model с более точными прогнозами местоположения клика.

API API AGET-1-Vision Model

Вскоре мы будем предлагать доступ к API к нашей модели агента-1-Vision.

Если вы заинтересованы в получении доступа к этому API, зарегистрируйтесь здесь.

Демо

final-low.mp4

Запустить `Self-Operating Computer`

Установите проект

 pip install self-operating-computer

Запустите проект

 operate

Введите свой ключ Openai : если у вас нет, вы можете получить ключ Openai здесь. Если вам нужно, чтобы вы изменили свой ключ в более поздней точке, запустите vim .env , чтобы открыть .env и заменить старый ключ.

Дайте приложение терминала необходимые разрешения : В качестве последнего шага в приложении терминала потребуется разрешение на «запись экрана» и «доступность» на странице «Безопасность и конфиденциальность» на странице «Системных предпочтений» Mac.

Использование режимов `operate`

Мультимодальные модели `-m`

Дополнительная модель теперь совместима с самостоятельной компьютерной структурой. Попробуйте Google gemini-pro-vision , следуя приведенным ниже инструкциям.

Начать operate с моделью Близнецов

 operate -m gemini-pro-vision

Введите свой ключ Google AI Studio API, когда терминал побуждает вас к нему, если у вас нет, вы можете получить ключ здесь после настройки учетной записи Google AI Studio. Вам также может понадобиться авторизация учетных данных для настольного приложения. Мне потребовалось немного времени, чтобы заставить его работать, если кто -то знает более простой способ, сделайте PR.

Попробуйте Claude `-m claude-3`

Используйте Claude 3 с Vision, чтобы увидеть, как он складывается до GPT-4-Vision для работы компьютера. Перейдите к приборной панели Claude, чтобы получить клавишу API и запустите команду ниже, чтобы попробовать ее.

 operate -m claude-3

Попробуйте Llava, организованную через Ollama `-m llava`

Если вы хотите поэкспериментировать с самолетной компьютерной структурой, используя Llava на вашей собственной машине, вы можете с Ollama!
Примечание: Ollama в настоящее время поддерживает MacOS и Linux

Во -первых, установите Ollama на вашем компьютере с https://ollama.ai/download.

Как только Оллама будет установлен, потяните модель Llava:

 ollama pull llava

Это загрузит модель на вашей машине, которая занимает приблизительно 5 ГБ хранилища.

Когда Ollama закончил вытягивать Llava, запустите сервер:

 ollama serve

Вот и все! Теперь начните operate и выберите модель Llava:

 operate -m llava

ВАЖНО: Показатели ошибок при использовании Llava очень высоки. Это просто предназначено для того, чтобы быть базой для создания, поскольку локальные мультимодальные модели со временем улучшаются.

Узнайте больше об Ollama в его репозитории GitHub

Голосовой режим `--voice`

Структура поддерживает голосовые входы для цели. Попробуйте голос, следуя инструкциям ниже. Клонировать репо в каталог на вашем компьютере:

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD в каталог :

 cd self-operating-computer

Установите дополнительные requirements-audio.txt

 pip install -r requirements-audio.txt

Установите требования устройства для пользователей Mac:

 brew install portaudio

Для пользователей Linux:

 sudo apt install portaudio19-dev python3-pyaudio

Запустить с помощью голосового режима

 operate --voice

Режим распознавания оптического персонажа `-m gpt-4-with-ocr`

Самолепая компьютерная структура теперь интегрирует возможности распознавания оптических символов (OCR) с режимом gpt-4-with-ocr . Этот режим дает GPT-4 Hash Map of Clickable Elements по координатам. GPT-4 может решить click «Элементы по тексту», а затем код ссылается на карту хэш, чтобы получить координаты для этого элемента GPT-4, который хотел щелкнуть.

Основываясь на недавних тестах, OCR работает лучше, чем som и Vanilla GPT-4, поэтому мы сделали его по умолчанию для проекта. Чтобы использовать режим OCR, вы можете просто написать:

operate или operate -m gpt-4-with-ocr также будет работать.

`-m gpt-4-with-som` марки

Самолепая компьютерная структура теперь поддерживает подсказку (SOM), подсказывающую команду gpt-4-with-som . Этот новый метод визуальной подсказки расширяет возможности визуального заземления крупных мультимодальных моделей.

Узнайте больше о SOM -подсказке в подробной статье Arxiv: здесь.

Для этой первоначальной версии простая модель Yolov8 обучается для обнаружения кнопок, а файл best.pt включен в model/weights/ . Пользователям рекомендуется поменять свой файл best.pt для оценки улучшения производительности. Если ваша модель превосходит существующий, пожалуйста, внесите вклад, создав запрос на вытягивание (PR).

Начать operate с моделью SOM

 operate -m gpt-4-with-som

Вклад приветствуется!:

Если вы хотите внести свой вклад, см. Appling.md.

Обратная связь

Для любого вклада в улучшение этого проекта, не стесняйтесь обращаться к Джошу в Твиттере.

Присоединяйтесь к нашему сообществу Discord

Для обсуждений в режиме реального времени и поддержки сообщества присоединяйтесь к нашему серверу Discord.

Если вы уже являетесь участником, присоединяйтесь к обсуждению в #Self-Computer.
Если вы новичок, сначала присоединяйтесь к нашему серверу Discord, а затем перейдите к #Self-Computer.

Следуйте за Hyperwriteai для получения дополнительных обновлений

Оставайтесь в курсе последних событий:

Следите за Hyperwriteai в Твиттере.
Следуйте за Hyperwriteai на LinkedIn.

Совместимость

Этот проект совместим с Mac OS, Windows и Linux (с установленным X -сервером).

Ограничивающая ставка Openai

Требуется модель gpt-4o . Чтобы разблокировать доступ к этой модели, вашей учетной записи необходимо потратить не менее 5 долларов на кредиты API. Предварительная оплата за эти кредиты разблокирует доступ, если вы еще не потратили минимум 5 долларов.
Узнайте больше здесь

Расширять

Дополнительная информация

Версия update to `1.4.6`
Тип Другой исходный код
Время обновления 2025-03-01
размер 6.31MB
От Github

Связанные приложения

GitHub sgrebnov/cordova plugin background download

2024-11-05
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Приложение для отслеживания целей самообслуживания

2024-03-18
Мобильная версия Keychain Maker (игра-брелок для самообороны)

2023-10-24
Самостоятельность

2023-05-19
Самоизоляция

2022-08-09

self operating computer

Самолепая компьютерная структура

Ключевые функции

Непрерывное развитие

API API AGET-1-Vision Model

Демо

Запустить `Self-Operating Computer`

Использование режимов `operate`

Мультимодальные модели `-m`

Попробуйте Claude `-m claude-3`

Попробуйте Llava, организованную через Ollama `-m llava`

Голосовой режим `--voice`

Режим распознавания оптического персонажа `-m gpt-4-with-ocr`

`-m gpt-4-with-som` марки

Вклад приветствуется!:

Обратная связь

Присоединяйтесь к нашему сообществу Discord

Следуйте за Hyperwriteai для получения дополнительных обновлений

Совместимость

Ограничивающая ставка Openai

GitHub sgrebnov/cordova plugin background download

wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

Приложение для отслеживания целей самообслуживания

Мобильная версия Keychain Maker (игра-брелок для самообороны)

Самостоятельность

Самоизоляция

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

hidusbf

Google Dorks

shepherd

hidusbf

self operating computer

Самолепая компьютерная структура

Ключевые функции

Непрерывное развитие

API API AGET-1-Vision Model

Демо

Запустить Self-Operating Computer

Использование режимов operate

Мультимодальные модели -m

Попробуйте Claude -m claude-3

Попробуйте Llava, организованную через Ollama -m llava

Голосовой режим --voice

Режим распознавания оптического персонажа -m gpt-4-with-ocr

-m gpt-4-with-som марки

Вклад приветствуется!:

Обратная связь

Присоединяйтесь к нашему сообществу Discord

Следуйте за Hyperwriteai для получения дополнительных обновлений

Совместимость

Ограничивающая ставка Openai

Запустить `Self-Operating Computer`

Использование режимов `operate`

Мультимодальные модели `-m`

Попробуйте Claude `-m claude-3`

Попробуйте Llava, организованную через Ollama `-m llava`

Голосовой режим `--voice`

Режим распознавания оптического персонажа `-m gpt-4-with-ocr`

`-m gpt-4-with-som` марки