Download self operating computer - download de código fonte self operating computer

self operating computer

Outro código-fonte

update to `1.4.6`

Baixar

Estrutura de computador auto-operacional

Uma estrutura para ativar modelos multimodais para operar um computador.

Usando as mesmas entradas e saídas que um operador humano, o modelo vê a tela e decide em uma série de ações de mouse e teclado para atingir um objetivo.

Principais recursos

Compatibilidade : projetado para vários modelos multimodais.
Integração : Atualmente integrada ao GPT-4O, Gemini Pro Vision, Claude 3 e Llava.
Planos futuros : Suporte para modelos adicionais.

Desenvolvimento contínuo

Na HyperWriteAi, estamos desenvolvendo o Agente-1-Vision Um modelo multimodal com previsões de localização de clique mais precisas.

Acesso API do modelo de agente-1-visão

Em breve, ofereceremos o acesso da API ao nosso modelo Agent-1-Vision.

Se você estiver interessado em obter acesso a esta API, inscreva -se aqui.

Demonstração

final-low.mp4

Execute `Self-Operating Computer`

Instale o projeto

 pip install self-operating-computer

Execute o projeto

 operate

Digite sua tecla OpenAI : se você não tiver um, poderá obter uma chave OpenAI aqui. Se você precisar alterar sua chave em um ponto posterior, execute vim .env para abrir o .env e substituir a chave antiga.

Dê um aplicativo de terminal as permissões necessárias : como última etapa, o aplicativo do terminal solicitará permissão para "gravação de tela" e "acessibilidade" na página "Segurança e privacidade" das "Preferências do Sistema" do MAC.

Usando modos `operate`

Modelos multimodais `-m`

Um modelo adicional agora é compatível com a estrutura de computador auto -operacional. Experimente gemini-pro-vision do Google seguindo as instruções abaixo.

Comece operate com o modelo Gemini

 operate -m gemini-pro-vision

Digite a chave da API do Google AI Studio quando o terminal solicitar que, se você não tiver um, poderá obter uma chave aqui depois de configurar sua conta do Google AI Studio. Você também pode precisar autorizar credenciais para um aplicativo de desktop. Levei um tempo para fazê -lo funcionar, se alguém souber de uma maneira mais simples, faça um PR.

Tente claude `-m claude-3`

Use Claude 3 com a Vision para ver como ele se compara ao GPT-4-Vision na operação de um computador. Navegue até o painel Claude para obter uma chave da API e execute o comando abaixo para experimentá -lo.

 operate -m claude-3

Experimente llava hospedado através do ollama `-m llava`

Se você deseja experimentar a estrutura de computador auto-operacional usando LLAVA em sua própria máquina, você pode com Ollama!
Nota: Atualmente, o Ollama suporta apenas macOS e Linux

Primeiro, instale o Ollama em sua máquina em https://ollama.ai/download.

Depois que o Ollama for instalado, puxe o modelo LLAVA:

 ollama pull llava

Isso baixará o modelo em sua máquina, que leva aproximadamente 5 GB de armazenamento.

Quando o Ollama terminar de puxar a llava, inicie o servidor:

 ollama serve

É isso! Agora comece operate e selecione o modelo LLAVA:

 operate -m llava

IMPORTANTE: As taxas de erro ao usar a LLAVA são muito altas. Isso se destina a ser uma base para construir, à medida que os modelos multimodais locais melhoram com o tempo.

Saiba mais sobre Ollama em seu repositório do GitHub

Modo de voz `--voice`

A estrutura suporta entradas de voz para o objetivo. Experimente a voz seguindo as instruções abaixo. Clone o repositório de um diretório em seu computador:

 git clone https://github.com/OthersideAI/self-operating-computer.git

CD no diretório :

 cd self-operating-computer

Instale os requirements-audio.txt

 pip install -r requirements-audio.txt

Instale os requisitos do dispositivo para usuários de Mac:

 brew install portaudio

Para usuários do Linux:

 sudo apt install portaudio19-dev python3-pyaudio

Execute com o modo de voz

 operate --voice

Modo de reconhecimento de caracteres óptico `-m gpt-4-with-ocr`

A estrutura de computador auto-operadora agora integra recursos de reconhecimento de caracteres ópticos (OCR) com o modo gpt-4-with-ocr . Este modo fornece ao GPT-4 um mapa de hash de elementos clicáveis por coordenadas. O GPT-4 pode decidir click em elementos por texto e, em seguida, o código faz referência ao mapa de hash para obter as coordenadas para esse elemento que GPT-4 queria clicar.

Com base em testes recentes, o OCR tem um desempenho melhor que som e o Vanilla GPT-4, por isso o tornamos o padrão para o projeto. Para usar o modo OCR, você pode simplesmente escrever:

operate ou operate -m gpt-4-with-ocr também funcionará.

`-m gpt-4-with-som` de mark

A estrutura de computador auto-operadora agora suporta o conjunto de marcas (SOM) que solicitam com o comando gpt-4-with-som . Esse novo método de solicitação visual aprimora os recursos de fundamento visual de grandes modelos multimodais.

Saiba mais sobre o SOM solicitando o artigo ARXIV detalhado: aqui.

Para esta versão inicial, um modelo YOLOV8 simples é treinado para detecção de botões, e o arquivo best.pt está incluído no model/weights/ . Os usuários são incentivados a trocar em seu best.pt arquivo.pt para avaliar as melhorias de desempenho. Se o seu modelo superar o existente, contribua com a criação de uma solicitação de tração (PR).

Comece operate com o modelo SOM

 operate -m gpt-4-with-som

As contribuições são bem -vindas!:

Se você deseja contribuir com si mesmo, consulte contribuindo.md.

Opinião

Para qualquer opinião sobre como melhorar este projeto, fique à vontade para alcançar Josh no Twitter.

Junte -se à nossa comunidade de discórdia

Para discussões em tempo real e suporte da comunidade, junte-se ao nosso servidor Discord.

Se você já é um membro, participe da discussão em #auto-operador.
Se você é novo, junte-se ao nosso servidor Discord e depois navegue até o computador #auto-operatório.

Siga o HyperWriteii para obter mais atualizações

Mantenha -se atualizado com os últimos desenvolvimentos:

Siga o HyperWriteii no Twitter.
Siga o HyperWriteAi no LinkedIn.

Compatibilidade

Este projeto é compatível com Mac OS, Windows e Linux (com o X Server instalado).

Nota limitante da taxa de abertura

O modelo gpt-4o é necessário. Para desbloquear o acesso a esse modelo, sua conta precisa gastar pelo menos US $ 5 em créditos da API. O pré-pagamento por esses créditos desbloqueará o acesso se você ainda não gastou o mínimo de US $ 5.
Saiba mais aqui

Expandir

Informações adicionais