Uma estrutura para ativar modelos multimodais para operar um computador.
Usando as mesmas entradas e saídas que um operador humano, o modelo vê a tela e decide em uma série de ações de mouse e teclado para atingir um objetivo.

Na HyperWriteAi, estamos desenvolvendo o Agente-1-Vision Um modelo multimodal com previsões de localização de clique mais precisas.
Em breve, ofereceremos o acesso da API ao nosso modelo Agent-1-Vision.
Se você estiver interessado em obter acesso a esta API, inscreva -se aqui.
Self-Operating Computer pip install self-operating-computer
operate
vim .env para abrir o .env e substituir a chave antiga. 


operate-m Um modelo adicional agora é compatível com a estrutura de computador auto -operacional. Experimente gemini-pro-vision do Google seguindo as instruções abaixo.
Comece operate com o modelo Gemini
operate -m gemini-pro-vision
Digite a chave da API do Google AI Studio quando o terminal solicitar que, se você não tiver um, poderá obter uma chave aqui depois de configurar sua conta do Google AI Studio. Você também pode precisar autorizar credenciais para um aplicativo de desktop. Levei um tempo para fazê -lo funcionar, se alguém souber de uma maneira mais simples, faça um PR.
-m claude-3Use Claude 3 com a Vision para ver como ele se compara ao GPT-4-Vision na operação de um computador. Navegue até o painel Claude para obter uma chave da API e execute o comando abaixo para experimentá -lo.
operate -m claude-3
-m llava Se você deseja experimentar a estrutura de computador auto-operacional usando LLAVA em sua própria máquina, você pode com Ollama!
Nota: Atualmente, o Ollama suporta apenas macOS e Linux
Primeiro, instale o Ollama em sua máquina em https://ollama.ai/download.
Depois que o Ollama for instalado, puxe o modelo LLAVA:
ollama pull llava
Isso baixará o modelo em sua máquina, que leva aproximadamente 5 GB de armazenamento.
Quando o Ollama terminar de puxar a llava, inicie o servidor:
ollama serve
É isso! Agora comece operate e selecione o modelo LLAVA:
operate -m llava
IMPORTANTE: As taxas de erro ao usar a LLAVA são muito altas. Isso se destina a ser uma base para construir, à medida que os modelos multimodais locais melhoram com o tempo.
Saiba mais sobre Ollama em seu repositório do GitHub
--voiceA estrutura suporta entradas de voz para o objetivo. Experimente a voz seguindo as instruções abaixo. Clone o repositório de um diretório em seu computador:
git clone https://github.com/OthersideAI/self-operating-computer.git
CD no diretório :
cd self-operating-computer
Instale os requirements-audio.txt
pip install -r requirements-audio.txt
Instale os requisitos do dispositivo para usuários de Mac:
brew install portaudio
Para usuários do Linux:
sudo apt install portaudio19-dev python3-pyaudio
Execute com o modo de voz
operate --voice
-m gpt-4-with-ocr A estrutura de computador auto-operadora agora integra recursos de reconhecimento de caracteres ópticos (OCR) com o modo gpt-4-with-ocr . Este modo fornece ao GPT-4 um mapa de hash de elementos clicáveis por coordenadas. O GPT-4 pode decidir click em elementos por texto e, em seguida, o código faz referência ao mapa de hash para obter as coordenadas para esse elemento que GPT-4 queria clicar.
Com base em testes recentes, o OCR tem um desempenho melhor que som e o Vanilla GPT-4, por isso o tornamos o padrão para o projeto. Para usar o modo OCR, você pode simplesmente escrever:
operate ou operate -m gpt-4-with-ocr também funcionará.
-m gpt-4-with-som de mark A estrutura de computador auto-operadora agora suporta o conjunto de marcas (SOM) que solicitam com o comando gpt-4-with-som . Esse novo método de solicitação visual aprimora os recursos de fundamento visual de grandes modelos multimodais.
Saiba mais sobre o SOM solicitando o artigo ARXIV detalhado: aqui.
Para esta versão inicial, um modelo YOLOV8 simples é treinado para detecção de botões, e o arquivo best.pt está incluído no model/weights/ . Os usuários são incentivados a trocar em seu best.pt arquivo.pt para avaliar as melhorias de desempenho. Se o seu modelo superar o existente, contribua com a criação de uma solicitação de tração (PR).
Comece operate com o modelo SOM
operate -m gpt-4-with-som
Se você deseja contribuir com si mesmo, consulte contribuindo.md.
Para qualquer opinião sobre como melhorar este projeto, fique à vontade para alcançar Josh no Twitter.
Para discussões em tempo real e suporte da comunidade, junte-se ao nosso servidor Discord.
Mantenha -se atualizado com os últimos desenvolvimentos:
O modelo gpt-4o é necessário. Para desbloquear o acesso a esse modelo, sua conta precisa gastar pelo menos US $ 5 em créditos da API. O pré-pagamento por esses créditos desbloqueará o acesso se você ainda não gastou o mínimo de US $ 5.
Saiba mais aqui