Открытый интерфейс

Полный автопилот для всех компьютеров с использованием LLMS
Открытый интерфейс
- Компьютеры самостоятельного управления путем отправки запросов пользователей на бэкэнд LLM (GPT-4V и т. Д.), Чтобы выяснить необходимые шаги.
- Автоматически выполняет шаги, моделируя клавиатуру и вход мыши.
- Курс-коррекция, отправив LLMS текущий скриншот компьютера по мере необходимости.
Программное обеспечение для самостоятельного вождения для всех ваших компьютеров
Демо
[«Сделайте мне план питания в документах Google»]

Больше демонстраций
Установить ?
MacOS
- Загрузите Macos Binary с последнего релиза.
- Разанипируйте файл и перемещайте открытый интерфейс в папку Applications.

Apple Silicon Macs Mac
- Открытый интерфейс попросит вас получить доступ к доступу для работы с клавиатурой и мышью для вас, а также для записи экрана, чтобы сделать снимки экрана, чтобы оценить его прогресс.
- Если это не так, вручную добавить это разрешение через настройки системы -> Конфиденциальность и безопасность


Intel Macs
- Запустите приложение из папки Applications.
Вы можете столкнуться с стандартной Mac "Открытый интерфейс не может быть открыт" .

В этом случае нажмите «Отмена» .
Затем перейдите в системные настройки -> Безопасность и конфиденциальность -> В любом случае открыть.



- Открытый интерфейс также потребует доступа к доступу для работы с клавиатурой и мышью для вас, а также для записи экрана, чтобы сделать снимки экрана для оценки его прогресса.


- Наконец, проверьте раздел «Настройка» для подключения интерфейса открытия к LLMS (OpenAI GPT-4V)
Linux
- Linux Binary был протестирован на Ubuntu 20.04 до сих пор.
- Загрузите файл Zip Linux из последнего релиза.
- Извлеките исполняемый файл и запустите его из терминала через
./Open Interface - Оформить раздел «Настройка» для подключения интерфейса открытия к LLMS (OpenAI GPT-4V)
Окна
- Windows Birary был протестирован в Windows 10.
- Загрузите файл Zip Windows из последнего релиза.
- Разанизируйте папку, переместите EXE в желаемое место, двойной щелчок, чтобы открыть, и вуаля.
- Оформить раздел «Настройка» для подключения интерфейса открытия к LLMS (OpenAI GPT-4V)
Настраивать
Установите ключ OpenAI API
Получите свой ключ API OpenAI
- Открыть интерфейс нуждается в доступе к GPT-4V для выполнения запросов пользователей. Ключи GPT-4V можно загрузить с вашей учетной записи OpenAI.
- Следуйте шагам здесь, чтобы добавить баланс к вашей учетной записи Openai. Чтобы разблокировать GPT-4V минимальный платеж в размере 5 долларов США.
- Больше информации
Сохраните клавишу API в настройках открытого интерфейса
- В открытом интерфейсе перейдите в меню «Настройки» в правом верхнем углу и введите ключ, который вы получили от Openai в текстовое поле, как так:

После установки клавиши API впервые вам нужно перезапустить приложение.
Необязательно: настроить пользовательский LLM
- Открытый интерфейс поддерживает с использованием других LLMS OpenAI API -стиля (например, Llava) в качестве бэкэнда и может быть легко настроена в окне «Расширенные настройки».
- Введите пользовательский базовый URL и имя модели в окне «Расширенные настройки» и клавишу API в окне «Настройки» по мере необходимости.

- Если ваш LLM не поддерживает API в стиле Openai, вы можете использовать такую библиотеку, чтобы преобразовать ее в один.
- Вам нужно будет перезапустить приложение после этих изменений.
Наносит плохие (пока) ?
- Точное пространственное рассмотрение и, следовательно, нажатие кнопок.
- Отслеживая себя в табличных контекстах, таких как Excel и Google Sheets, по тем же причинам, как указано выше.
- Навигация на сложные приложения, богатые с графическим интерфейсом, такие как Counter-Strike, Spotify, Garage Band и т. Д. Из-за тяжелой зависимости от действий курсора.
Будущее ?
( С лучшими моделями, обученными на видео, таких как учебные пособия на YouTube )
- «Создайте пару образцов басов для меня в Garage Band для моего последнего проекта».
- «Прочитайте этот дизайн -документ для новой функции, отредактируйте код на GitHub и отправьте его для рассмотрения».
- «Найдите музыкальный вкус моих друзей из Spotify и создайте плейлист для вечеринок для сегодняшнего мероприятия».
- «Сделайте фотографии из моей поездки в Тахо и сделайте монтаж белого лотоса в Imovie».
Примечания
- Стоимость: 0,05 долл. США - 0,20 долл. США за запрос пользователя.
(Это будет намного ниже в ближайшем будущем после того, как GPT-4V позволит помощник/государственный режим) - Вы можете прервать приложение в любое время, нажав кнопку «Стоп» или перетаскивая курсор на любой из углов экрана.
- Открытый интерфейс может видеть ваш основной дисплей только при использовании нескольких мониторов. Следовательно, если курсор/фокус находится на вторичном экране, он может продолжать повторять те же действия, что и не может видеть его прогресс (особенно в MacOS с запуском внимания).
Системная диаграмма ? ️
+----------------------------------------------------+
| App |
| |
| +-------+ |
| | GUI | |
| +-------+ |
| ^ |
| | |
| v |
| +-----------+ (Screenshot + Goal) +-----------+ |
| | | --------------------> | | |
| | Core | | LLM | |
| | | <-------------------- | (GPT-4V) | |
| +-----------+ (Instructions) +-----------+ |
| | |
| v |
| +-------------+ |
| | Interpreter | |
| +-------------+ |
| | |
| v |
| +-------------+ |
| | Executer | |
| +-------------+ |
+----------------------------------------------------+
Звездная история ️
Ссылки ?
- Проверьте больше моих проектов на Ambersah.dev.
- Другие демонстрации и пресс -комплект можно найти на media.md.