Download stagehand - Download de código fonte de stagehand

stagehand

Outro código-fonte

v1.3.0

Baixar

? Stagehand

Uma estrutura de navegação na Web da AI focada na simplicidade e extensibilidade.

Introdução
Começando
Referência da API
- agir()
- extrair()
- observar()
Suporte ao modelo
Como funciona
StageHand vs dramaturgo
Dicas de estimativa
Roteiro
Contribuindo
Agradecimentos
Licença

Observação

Atualmente, Stagehand está disponível como um lançamento antecipado e estamos buscando ativamente feedback da comunidade. Junte -se à nossa comunidade Slack para se manter atualizado sobre os últimos desenvolvimentos e forneça feedback.

Introdução

O StageHand é o sucessor de AI a dramaturgo, oferecendo três APIs simples ( act , extract e observe ) que fornecem os blocos de construção para a automação da Web de linguagem natural.

O objetivo do Stagehand é fornecer uma estrutura leve e configurável, sem abstrações excessivamente complexas, bem como suporte modular para diferentes modelos e provedores de modelos. Não vai pedir uma pizza para você, mas ajudará você a automatizar com segurança a web.

Cada função de mão de palco recebe uma instrução atômica, como act("click the login button") ou extract("find the red shoes") , gera o código de dramaturgo apropriado para realizar essa instrução e a executa.

As instruções devem ser atômicas para aumentar a confiabilidade, e o planejamento de etapas deve ser tratado pelo agente de nível superior. Você pode usar observe() para obter uma lista sugerida de ações que podem ser tomadas na página atual e, em seguida, usá -las para fundamentar seus avisos de planejamento de etapas.

O StageHand é de código aberto e mantido pela equipe de navegador. Acreditamos que, ao permitir que mais desenvolvedores criem automações da Web confiáveis, expandiremos o mercado de desenvolvedores que se beneficiam de nossa infraestrutura de navegador sem cabeça. Essa é a estrutura que desejávamos que tivéssemos em nossas próprias aplicações, e estamos animados em compartilhá -la com você.

Começando

1. Instale o pacote de palco de palco

Também instalamos o Zod para a extração digitada

npm install @browserbasehq/stagehand zod

2. Configure o seu provedor de modelos

Você precisará fornecer sua chave da API para o provedor de modelos que você deseja usar. O provedor de modelos padrão é o OpenAI, mas você também pode usar antropia ou outros. Mais informações sobre modelos suportados podem ser encontrados na referência da API.

Certifique -se de que uma chave da API OpenAI ou a chave API antrópica seja acessível em seu ambiente local.

 export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-...

3. Crie uma instância de mão de palco

Se você planeja executar o navegador localmente, também precisará instalar as dependências do navegador do dramaturgo.

npm exec playwright install

Então você pode criar uma instância de mão de palco como assim:

 import { Stagehand } from "@browserbasehq/stagehand" ;
import { z } from "zod" ;

const stagehand = new Stagehand ( {
  env : "LOCAL" ,
} ) ;

Se você planeja executar o navegador remotamente, precisará definir uma chave de API do BrowserBase e ID do projeto.

 export BROWSERBASE_API_KEY=...
export BROWSERBASE_PROJECT_ID=...

 import { Stagehand } from "@browserbasehq/stagehand" ;
import { z } from "zod" ;

const stagehand = new Stagehand ( {
  env : "BROWSERBASE" ,
  enableCaching : true ,
} ) ;

4. Execute sua primeira automação

 await stagehand . init ( ) ;
await stagehand . page . goto ( "https://github.com/browserbase/stagehand" ) ;
await stagehand . act ( { action : "click on the contributors" } ) ;
const contributor = await stagehand . extract ( {
  instruction : "extract the top contributor" ,
  schema : z . object ( {
    username : z . string ( ) ,
    url : z . string ( ) ,
  } ) ,
} ) ;
console . log ( `Our favorite contributor is ${ contributor . username } ` ) ;

Este snippet simples abrirá um navegador, navegará até o repositório de palco e registrará o principal colaborador.

Referência da API

`Stagehand()`

Este construtor é usado para criar uma instância do StageHand.

Argumentos:
- env : 'LOCAL' ou 'BROWSERBASE' . Padrões para 'BROWSERBASE' .
- modelName : (Opcional) Uma string AvailableModel para especificar o modelo padrão a ser usado.
- modelClientOptions : (opcional) Opções de configuração para o cliente Model.
- enableCaching : um boolean que permite o cache de respostas de LLM. Quando definido como true , as solicitações LLM serão armazenadas em cache no disco e reutilizadas para solicitações idênticas. Padrões para false .
- headless : um boolean que determina se o navegador é executado no modo sem cabeça. Padrões para false . Quando o Env estiver definido como BROWSERBASE , isso será ignorado.
- domSettleTimeoutMs : um integer que especifica o tempo limite em milissegundos por esperar que o DOM resolva. Padrão para 30000 (30 segundos).
- apiKey : (Opcional) Sua chave da API de navegador. Padrão para BROWSERBASE_API_KEY Ambiente Variável.
- projectId : (Opcional) Seu ID do projeto de navegador. Padrão para BROWSERBASE_PROJECT_ID Ambiente Variável.
- browserBaseSessionCreateParams : Opções de configuração para criar novas sessões de navegador.
- browserbaseResumeSessionID : ID de uma sessão de navegador existente para retomar.
- logger : uma função que lida com mensagens de log. Útil para implementações de log personalizadas.
- verbose : um integer que permite vários níveis de log durante a automação:
  - 0 : limitado a nenhum registro
  - 1 : registro de nível SDK
  - 2 : Freeção de nível LLM-Client (mais granular)
- debugDom : um boolean que atrai caixas delimitadoras em torno dos elementos apresentados ao LLM durante a automação.
Retornos:
- Uma instância da classe Stagehand configurada com as opções especificadas.

Exemplo:

 // Basic usage
const stagehand = new Stagehand ( ) ;

// Custom configuration
const stagehand = new Stagehand ( {
  env : "LOCAL" ,
  verbose : 1 ,
  headless : true ,
  enableCaching : true ,
  logger : ( logLine ) => {
    console . log ( `[ ${ logLine . category } ] ${ logLine . message } ` ) ;
  } ,
} ) ;

// Resume existing Browserbase session
const stagehand = new Stagehand ( {
  env : "BROWSERBASE" ,
  browserbaseResumeSessionID : "existing-session-id" ,
} ) ;

Métodos

`init()`

init() inicializa assíncrona a instância do palco. Deve ser chamado antes de quaisquer outros métodos.

Argumentos:
- modelName : (Opcional) Uma string AvailableModel para especificar o modelo a ser usado. Isso será usado para todos os outros métodos, a menos que seja substituído.
- modelClientOptions : (opcional) Opções de configuração para o cliente Model Client
- domSettleTimeoutMs : (Opcional) Timeout em milissegundos por esperar que o DOM resolva
Retornos:
- Uma Promise que resolve a um objeto que contém:
  - debugUrl : Uma string que representa o URL para depuração ao vivo. Isso só está disponível ao usar um navegador de navegador.
  - sessionUrl : uma string representando o URL da sessão. Isso só está disponível ao usar um navegador de navegador.

Exemplo:

 await stagehand . init ( { modelName : "gpt-4o" } ) ;

`act()`

act() permite que o StageHand interaja com uma página da web. Forneça uma action como "search for 'x'" ou "select the cheapest flight presented" (pequenos objetivos atômicos têm o melhor desempenho).

Argumentos:
- action : Uma string descrevendo a ação para executar
- modelName : (Opcional) Uma sequência AvailableModel para especificar o modelo para usar
- modelClientOptions : (opcional) Opções de configuração para o cliente Model Client
- useVision : (Opcional) Um boolean ou "fallback" para determinar se o processamento baseado na visão deve ser usado. Padrões de "fallback"
- variables : (opcional) Um Record<string, string> de variáveis a serem usadas na ação. As variáveis na sequência de ação são referenciadas usando %variable_name%
- domSettleTimeoutMs : (Opcional) Timeout em milissegundos por esperar que o DOM resolva
Retornos:
- Uma Promise que resolve a um objeto que contém:
  - success : um boolean indicando se a ação foi concluída com sucesso.
  - message : uma string fornecendo detalhes sobre a execução da ação.
  - action : Uma string descrevendo a ação executada.

Exemplo:

 // Basic usage
await stagehand . act ( { action : "click on add to cart" } ) ;

// Using variables
await stagehand . act ( {
  action : "enter %username% into the username field" ,
  variables : {
    username : "[email protected]" ,
  } ,
} ) ;

// Multiple variables
await stagehand . act ( {
  action : "fill in the form with %username% and %password%" ,
  variables : {
    username : "john.doe" ,
    password : "secretpass123" ,
  } ,
} ) ;

`extract()`

extract() pega texto estruturado na página atual usando o Zod. Dadas as instruções e schema , você receberá dados estruturados. Ao contrário de algumas bibliotecas de extração, o StageHand pode extrair qualquer informação em uma página, não apenas o conteúdo principal do artigo.

Argumentos:
- instruction : Uma string fornecendo instruções para extração
- schema : um z.AnyZodObject Definindo a estrutura dos dados para extrair
- modelName : (Opcional) Uma sequência AvailableModel para especificar o modelo para usar
- modelClientOptions : (opcional) Opções de configuração para o cliente Model Client
- domSettleTimeoutMs : (Opcional) Timeout em milissegundos por esperar que o DOM resolva
Retornos:
- Uma Promise que resolve os dados estruturados, conforme definido pelo schema fornecido.

Exemplo:

 const price = await stagehand . extract ( {
  instruction : "extract the price of the item" ,
  schema : z . object ( {
    price : z . number ( ) ,
  } ) ,
} ) ;

`observe()`

Observação

observe() atualmente avalia apenas o primeiro pedaço da página.

observe() é usado para obter uma lista de ações que podem ser tomadas na página atual. É útil para adicionar contexto à sua etapa de planejamento ou se você não tiver certeza de em que página está.

Se você estiver procurando por um elemento específico, também pode passar uma instrução para observar via: observe({ instruction: "{your instruction}"}) .

Argumentos:
- instruction : (Opcional) Uma string que fornece instruções para a observação. Padrões para "encontrar ações que possam ser executadas nesta página".
- modelName : (Opcional) Uma sequência AvailableModel para especificar o modelo para usar
- modelClientOptions : (opcional) Opções de configuração para o cliente Model Client
- useVision : (Opcional) Um boolean para determinar se o processamento baseado na visão deve ser usado. Padrões para false
- domSettleTimeoutMs : (Opcional) Timeout em milissegundos por esperar que o DOM resolva
Retornos:
- Uma Promise que resolve uma variedade de objetos contendo:
  - selector : uma string representando o seletor de elementos
  - description : Uma string descrevendo a ação possível

Exemplo:

 const actions = await stagehand . observe ( ) ;

`page` e `context`

page e context são instâncias da Page e do dramaturgo e BrowserContext , respectivamente. Use esses métodos para interagir com a instância do dramaturgo que o StageHand está usando. Geralmente, você usará page.goto() para navegar para um URL.

Exemplo:

 await stagehand . page . goto ( "https://github.com/browserbase/stagehand" ) ;

`log()`

log() é usado para imprimir uma mensagem no console do navegador. Essas mensagens serão persistidas nos logs da sessão do navegador e podem ser usados para depurar sessões após a conclusão.

Verifique se o nível de log está acima do nível detalhado que você define ao inicializar a instância do StageHand.

Exemplo:
```
 stagehand . log ( "Hello, world!" ) ; 
```

Suporte ao modelo

O StageHand aproveita uma arquitetura genérica de clientes LLM para suportar vários modelos de idiomas de diferentes fornecedores. Esse design permite flexibilidade, permitindo a integração de novos modelos com alterações mínimas no sistema principal. Modelos diferentes funcionam melhor para tarefas diferentes, para que você possa escolher o modelo que melhor atenda às suas necessidades.

Modelos atualmente suportados

Atualmente, o StageHand suporta os seguintes modelos do OpenAI e Antrópico:

Modelos Openai:
- gpt-4o
- gpt-4o-mini
- gpt-4o-2024-08-06
Modelos antrópicos:
- claude-3-5-sonnet-latest
- claude-3-5-sonnet-20240620
- claude-3-5-sonnet-20241022

Esses modelos podem ser especificados ao inicializar a instância Stagehand ou quando chama métodos como act() e extract() .

Como funciona

O SDK tem duas fases principais:

Processando o DOM (incluindo Chunking - veja abaixo ).
Tomando ações alimentadas por LLM com base no estado atual do DOM.

Processamento DOM

O StageHand usa uma combinação de técnicas para preparar o DOM.

As etapas de processamento DOM parecem o seguinte:

Via dramwright, injete um script no DOM acessível pelo SDK que pode executar o processamento.
Rastreie o DOM e crie uma lista de elementos candidatos.
- Os elementos candidatos são elementos foliares (elementos DOM que contêm substância real voltada para o usuário) ou são elementos interativos.
- Os elementos interativos são determinados por uma combinação de papéis e tags HTML.
Os elementos candidatos que não são ativos, visíveis ou no topo do DOM são descartados.
- O LLM deve receber apenas elementos que pode agir fielmente em nome do agente/usuário.
Para cada elemento candidato, um XPath é gerado. Isso garante que, se esse elemento for escolhido pelo LLM, seremos capazes de atingir com segurança.
Retorne a lista de elementos candidatos, bem como o mapa dos elementos para os seletores XPath no navegador de volta ao SDK, a serem analisados pelo LLM.

Chunking

Enquanto o LLMS continuará aumentando a comprimento da janela de contexto e reduzindo a latência, oferecendo a qualquer sistema de raciocínio que menos o que pensar deve torná -lo mais confiável. Como resultado, o processamento DOM é feito em pedaços para manter o contexto pequeno por chamada de inferência. Para se fundir, o SDK considera um elemento candidato que começa em uma seção da viewport como parte desse pedaço. No futuro, o preenchimento será adicionado para garantir que um pedaço individual não tenha um contexto relevante. Veja este diagrama de como ele parece:

Visão

Os métodos act() e observe() podem assumir um sinalizador useVision . Se isso estiver definido como true , o LLM receberá uma captura de tela anotada da página atual para identificar em quais elementos agirem. Isso é útil para DOMs complexos sobre os quais o LLM tem dificuldade em raciocinar, mesmo após o processamento e o ritmo. Por padrão, esse sinalizador está definido como "fallback" , o que significa que, se o LLM não conseguir identificar com êxito um único elemento, o StageHand voltará a tentar usar a visão.

Análise LLM

Agora temos uma lista de elementos candidatos e uma maneira de selecioná -los. Podemos apresentar esses elementos com contexto adicional ao LLM para extração ou ação. Embora não testado em larga escala, apresentar uma "lista numerada de elementos" orienta o modelo a não tratar o contexto como um DOM completo, mas como uma lista de elementos relacionados, mas independentes, para operar.

No caso de ação, pedimos ao LLM que escreva um método dramaturgo para fazer a coisa correta. Em nossos testes limitados, a sintaxe do dramaturgo é muito mais eficaz do que confiar nas APIs de JavaScript incorporadas, possivelmente devido à tokenização.

Por fim, usamos o LLM para escrever instruções futuras para ajudar a gerenciar seus progressos e objetivos ao operar em pedaços.

StageHand vs dramaturgo

Abaixo está um exemplo de como extrair uma lista de empresas do site da AI Grant usando o Stagehand e o dramaturgo.

Dicas de estimativa

A solicitação de palco é mais literal e atômica do que outras estruturas de nível superior, incluindo estruturas Agentic. Aqui estão algumas diretrizes para ajudá -lo a criar instruções eficazes:

Fazer:

Use ações específicas e concisas

 await stagehand . act ( { action : "click the login button" } ) ;

const productInfo = await stagehand . extract ( {
  instruction : "find the red shoes" ,
  schema : z . object ( {
    productName : z . string ( ) ,
    price : z . number ( ) ,
  } ) ,
} ) ;

Quebrar tarefas complexas em etapas menores e atômicas

Em vez de combinar ações:

 // Avoid this
await stagehand . act ( { action : "log in and purchase the first item" } ) ;

Divida -os em etapas individuais:

 await stagehand . act ( { action : "click the login button" } ) ;
// ...additional steps to log in...
await stagehand . act ( { action : "click on the first item" } ) ;
await stagehand . act ( { action : "click the purchase button" } ) ;

Use observe() para obter sugestões acionáveis da página atual

 const actions = await stagehand . observe ( ) ;
console . log ( "Possible actions:" , actions ) ;

Não:

Use instruções amplas ou ambíguas

 // Too vague
await stagehand . act ( { action : "find something interesting on the page" } ) ;

Combine várias ações em uma instrução

 // Avoid combining actions
await stagehand . act ( { action : "fill out the form and submit it" } ) ;

Espere que o StageHand realize planejamento ou raciocínio de alto nível

 // Outside Stagehand's scope
await stagehand . act ( { action : "book the cheapest flight available" } ) ;

Seguindo essas diretrizes, você aumentará a confiabilidade e a eficácia de suas automações na Web com o StageHand. Lembre-se de que o Stagehand se destaca na execução de ações precisas e bem definidas, portanto, manter suas instruções Atomic levará aos melhores resultados.

Deixamos o comportamento agêntico para sistemas agênticos de nível superior que podem usar o StageHand como uma ferramenta.

Roteiro

Em um nível alto, estamos focados em melhorar a confiabilidade, velocidade e custo nessa ordem de prioridade.

Você pode ver o roteiro aqui. Procurando contribuir? Leia!

Contribuindo

Observação

Valorizamos muito as contribuições para o StageHand! Para obter suporte ou revisão de código, junte -se à nossa comunidade Slack.

Primeiro, clone o repo

git clone [email protected]:browserbase/stagehand.git

Em seguida, instale dependências

npm install

Certifique -se de ter o arquivo .env , conforme documentado acima na seção de início.

Em seguida, execute o exemplo de exemplo de script npm run example .

Dicas de desenvolvimento

Um bom loop de desenvolvimento é:

Experimente as coisas no arquivo de exemplo
Use isso para fazer alterações no SDK
Escreva Evals que ajudem a validar suas mudanças
Certifique -se de não quebrar os Evalas existentes!
Abra um PR e faça com que a equipe seja revisada.

Executandovalas

Você precisará de uma chave de API Braintrust para executar o Evalals

 BRAINTRUST_API_KEY = " "

Depois disso, você pode executar a avaliação usando npm run evals

Adicionando novos evalos

Executar todos os Evalas pode levar algum tempo. Temos um example.ts de script de conveniência.

Você pode executar npm run example para executar e iterar na avaliação que está desenvolvendo atualmente.

Adicionando um novo modelo

Para adicionar um novo modelo ao palco, siga estas etapas:

Defina o modelo : adicione o novo nome do modelo ao tipo de modelo AvailableModel no arquivo LLMProvider.ts . Isso garante que o modelo seja reconhecido pelo sistema.
Mapeie o modelo para um provedor : atualize o modelToProviderMap na classe LLMProvider para associar o novo modelo ao seu provedor correspondente. Esse mapeamento é crucial para determinar qual cliente usar.
Implementar o cliente : se o novo modelo exigir um novo cliente, implemente uma classe que adere à interface LLMClient . Esta classe deve definir todos os métodos necessários, como createChatCompletion .
Atualize o método getClient : modifique o método getClient na classe LLMProvider para retornar uma instância do novo cliente quando o novo modelo for solicitado.

Construindo o SDK

O StageHand usa o TSUP para construir o SDK e a baunilha esbuild para criar scripts que são executados no DOM.

Executar npm run build
Execute npm pack para obter um tarball para distribuição

Agradecimentos

Este projeto depende muito do dramaturgo como uma espinha dorsal resiliente para automatizar a web. Também não seria possível sem as impressionantes técnicas e descobertas feitas por Tarsier e Fuji-Web.

Jeremy Press escreveu o MVP original do Stagehand e continua sendo um grande aliado do projeto.

Licença

Licenciado sob a licença do MIT.

Expandir

Informações adicionais

Versão v1.3.0
Tipo Outro código-fonte
Data da Última Atualização 2025-02-28
tamanho 1MB
Vindo de Github

Aplicativos Relacionados

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0
Google Dorks

Outro código-fonte

1.0
shepherd

Outro código-fonte

v6.1.6-react-shepherd: Prepare Release (#3063)
hidusbf

Outro código-fonte

1.0.0

Informações Relacionadas Todos

stagehand

? Stagehand

Introdução

Começando

1. Instale o pacote de palco de palco

2. Configure o seu provedor de modelos

3. Crie uma instância de mão de palco

4. Execute sua primeira automação

Referência da API

Stagehand()

Métodos

init()

act()

extract()

observe()

page e context

log()

Suporte ao modelo

Modelos atualmente suportados

Como funciona

Processamento DOM

Chunking

Visão

Análise LLM

StageHand vs dramaturgo

Dicas de estimativa

Fazer:

Não:

Roteiro

Contribuindo

Dicas de desenvolvimento

Executandovalas

Adicionando novos evalos

Adicionando um novo modelo

Construindo o SDK

Agradecimentos

Licença

`Stagehand()`

`init()`

`act()`

`extract()`

`observe()`

`page` e `context`

`log()`