Скачать stagehand - Скачать исходный код stagehand

stagehand

Другой исходный код

v1.3.0

Скачать

? Сценический

Структура просмотра веб -сайта ИИ была сосредоточена на простоте и расширяемости.

Вступление
Начиная
Ссылка на API
- действовать()
- извлекать()
- наблюдать()
Модель поддержки
Как это работает
Стадия против драматурга
Подсказка советов
Дорожная карта
Внося
Благодарности
Лицензия

Примечание

В настоящее время Stagehand доступен в качестве раннего релиза, и мы активно ищем отзывы сообщества. Пожалуйста, присоединяйтесь к нашему сообществу Slack, чтобы оставаться в курсе последних событий и предоставить обратную связь.

Вступление

StageHand является преемником AI, преемником драматурга, предлагающим три простых API ( act , extract и observe ), которые предоставляют строительные блоки для веб-автоматизации, управляемой естественным языком.

Цель StageHand - обеспечить легкую, настраиваемую структуру, без чрезмерно сложных абстракций, а также модульной поддержки для различных моделей и поставщиков моделей. Это не закажет вам пиццу, но это поможет вам надежно автоматизировать сеть.

Каждая функция ступени принимает атомную инструкцию, такую как act("click the login button") или extract("find the red shoes") , генерирует соответствующий код драматурга для выполнения этой инструкции и выполняет ее.

Инструкции должны быть атомными для повышения надежности, и планирование шага должно рассматриваться агентом более высокого уровня. Вы можете использовать observe() , чтобы получить предложенный список действий, которые можно предпринять на текущей странице, а затем использовать их, чтобы заземлить ваши подсказки по планированию шага.

StageHand находится с открытым исходным кодом и поддерживается командой BrowserBase. Мы считаем, что, позволяя большему количеству разработчиков создавать надежные веб -автоматизации, мы расширим рынок разработчиков, которые извлекают выгоду из нашей безголовной инфраструктуры браузера. Это та структура, которую мы хотели бы иметь, во время разжигания наших собственных приложений, и мы рады поделиться ею с вами.

Начиная

1. Установите пакет сцены

Мы также устанавливаем ZOD для питания

npm install @browserbasehq/stagehand zod

2. Настройте поставщик моделей

Вам нужно будет предоставить свой ключ API для поставщика моделей, которого вы хотели бы использовать. Поставщик моделей по умолчанию - OpenAI, но вы также можете использовать антропные или другие. Более подробную информацию о поддерживаемых моделях можно найти в ссылке API.

Убедитесь, что в вашей местной среде доступен ключ OpenAI или ключ API API.

 export OPENAI_API_KEY=sk-...
export ANTHROPIC_API_KEY=sk-...

3. Создайте экземпляр сцены

Если вы планируете запустить браузер локально, вам также необходимо установить зависимости браузера Playwright.

npm exec playwright install

Тогда вы можете создать сценический экземпляр, как:

 import { Stagehand } from "@browserbasehq/stagehand" ;
import { z } from "zod" ;

const stagehand = new Stagehand ( {
  env : "LOCAL" ,
} ) ;

Если вы планируете удаленно запустить браузер, вам нужно будет установить ключ API BrowserBase и идентификатор проекта.

 export BROWSERBASE_API_KEY=...
export BROWSERBASE_PROJECT_ID=...

 import { Stagehand } from "@browserbasehq/stagehand" ;
import { z } from "zod" ;

const stagehand = new Stagehand ( {
  env : "BROWSERBASE" ,
  enableCaching : true ,
} ) ;

4. Запустите свою первую автоматизацию

 await stagehand . init ( ) ;
await stagehand . page . goto ( "https://github.com/browserbase/stagehand" ) ;
await stagehand . act ( { action : "click on the contributors" } ) ;
const contributor = await stagehand . extract ( {
  instruction : "extract the top contributor" ,
  schema : z . object ( {
    username : z . string ( ) ,
    url : z . string ( ) ,
  } ) ,
} ) ;
console . log ( `Our favorite contributor is ${ contributor . username } ` ) ;

Этот простой фрагмент откроет браузер, перейти к репо сценическому репо и зарегистрирует главного участника.

Ссылка на API

`Stagehand()`

Этот конструктор используется для создания экземпляра StageHand.

Аргументы:
- env : 'LOCAL' или 'BROWSERBASE' . По умолчанию в 'BROWSERBASE' .
- modelName : (необязательно) Строка AvailableModel для указания модели по умолчанию для использования.
- modelClientOptions : (необязательно) Параметры конфигурации для клиента модели.
- enableCaching : boolean , который позволяет кэшировать ответы LLM. При установке true запросы LLM будут кэшированы на диске и повторно используются для идентичных запросов. По умолчанию false .
- headless : boolean , который определяет, работает ли браузер в режиме без головы. По умолчанию false . Когда Env установлен в BROWSERBASE , это будет игнорировано.
- domSettleTimeoutMs : целое integer , которое указывает тайм -аут в миллисекундах для ожидания дома. По умолчанию до 30000 (30 секунд).
- apiKey : (необязательно) Ваш ключ API BrowserBase. По умолчанию в BROWSERBASE_API_KEY Enviration Variable.
- projectId : (необязательно) идентификатор проекта вашего браузербазы. По умолчанию в BROWSERBASE_PROJECT_ID переменную среды.
- browserBaseSessionCreateParams : Параметры конфигурации для создания новых сеансов BrowserBase.
- browserbaseResumeSessionID : идентификатор существующего сеанса браузербазы для возобновления.
- logger : функция, которая обрабатывает сообщения журнала. Полезно для пользовательских реализаций ведения журнала.
- verbose : целое integer , которое обеспечивает несколько уровней регистрации во время автоматизации:
  - 0 : ограничено отсутствием регистрации
  - 1 : журнал на уровне SDK
  - 2 : LLM-клиент
- debugDom : boolean , которая привлекает ограничивающие ящики вокруг элементов, представленных в LLM во время автоматизации.
Возвращает:
- Экземпляр класса Stagehand , настроенный с указанными параметрами.

Пример:

 // Basic usage
const stagehand = new Stagehand ( ) ;

// Custom configuration
const stagehand = new Stagehand ( {
  env : "LOCAL" ,
  verbose : 1 ,
  headless : true ,
  enableCaching : true ,
  logger : ( logLine ) => {
    console . log ( `[ ${ logLine . category } ] ${ logLine . message } ` ) ;
  } ,
} ) ;

// Resume existing Browserbase session
const stagehand = new Stagehand ( {
  env : "BROWSERBASE" ,
  browserbaseResumeSessionID : "existing-session-id" ,
} ) ;

Методы

`init()`

init() асинхронно инициализирует экземпляр сцены. Это должно быть вызвано перед любыми другими методами.

Аргументы:
- modelName : (необязательно) Строка AvailableModel для указания модели для использования. Это будет использоваться для всех других методов, если только переопределить.
- modelClientOptions : (необязательно) параметры конфигурации для клиента модели
- domSettleTimeoutMs : (необязательно) тайм -аут в миллисекундах для ожидания дома
Возвращает:
- Promise , которое разрешается объекту, содержащим:
  - debugUrl : string представляющая URL для живой отладки. Это доступно только при использовании браузера браузербазы.
  - sessionUrl : string представляющая URL сеанса. Это доступно только при использовании браузера браузербазы.

Пример:

 await stagehand . init ( { modelName : "gpt-4o" } ) ;

`act()`

act() позволяет StageHand взаимодействовать с веб -страницей. Предоставьте такое action , как "search for 'x'" , или "select the cheapest flight presented" (малые атомные цели выполняют лучшее).

Аргументы:
- action : string , описывающая действие для выполнения
- modelName : (необязательно) Строка AvailableModel для указания модели для использования
- modelClientOptions : (необязательно) параметры конфигурации для клиента модели
- useVision : (необязательно) boolean или "fallback" чтобы определить, следует ли использовать обработку на основе зрения. По умолчанию "fallback"
- variables : (необязательно) Record<string, string> переменных для использования в действии. Переменные в строке действия ссылаются с использованием %variable_name%
- domSettleTimeoutMs : (необязательно) тайм -аут в миллисекундах для ожидания дома
Возвращает:
- Promise , которое разрешается объекту, содержащим:
  - success : boolean указывающий, было ли действие успешно завершено.
  - message : string предоставляющая подробную информацию о выполнении действия.
  - action : string , описывающая выполненное действие.

Пример:

 // Basic usage
await stagehand . act ( { action : "click on add to cart" } ) ;

// Using variables
await stagehand . act ( {
  action : "enter %username% into the username field" ,
  variables : {
    username : "[email protected]" ,
  } ,
} ) ;

// Multiple variables
await stagehand . act ( {
  action : "fill in the form with %username% and %password%" ,
  variables : {
    username : "john.doe" ,
    password : "secretpass123" ,
  } ,
} ) ;

`extract()`

extract() захватывает структурированный текст с текущей страницы с использованием ZOD. Учитывая инструкции и schema , вы получите структурированные данные. В отличие от некоторых библиотек извлечения, StageHand может извлечь любую информацию на странице, а не только основное содержимое статьи.

Аргументы:
- instruction : string , предоставляющая инструкции для извлечения
- schema : z.AnyZodObject определяющий структуру данных для извлечения
- modelName : (необязательно) Строка AvailableModel для указания модели для использования
- modelClientOptions : (необязательно) параметры конфигурации для клиента модели
- domSettleTimeoutMs : (необязательно) тайм -аут в миллисекундах для ожидания дома
Возвращает:
- Promise , которое разрешается структурированным данным, как определено предоставленной schema .

Пример:

 const price = await stagehand . extract ( {
  instruction : "extract the price of the item" ,
  schema : z . object ( {
    price : z . number ( ) ,
  } ) ,
} ) ;

`observe()`

Примечание

observe() в настоящее время оценивает только первый кусок на странице.

observe() используется для получения списка действий, которые можно предпринять на текущей странице. Это полезно для добавления контекста к своему этапу планирования, или если вы не уверены в том, на какой странице вы.

Если вы ищете определенный элемент, вы также можете пройти в инструкции для наблюдения через: observe({ instruction: "{your instruction}"}) .

Аргументы:
- instruction : (необязательно) string , предоставляющая инструкции для наблюдения. По умолчанию «найти действия, которые можно выполнить на этой странице».
- modelName : (необязательно) Строка AvailableModel для указания модели для использования
- modelClientOptions : (необязательно) параметры конфигурации для клиента модели
- useVision : (необязательно) boolean , чтобы определить, следует ли использовать обработку на основе зрения. По умолчанию false
- domSettleTimeoutMs : (необязательно) тайм -аут в миллисекундах для ожидания дома
Возвращает:
- Promise , которое разрешается множеством объектов, содержащих:
  - selector : string , представляющая селектор элементов
  - description : string , описывающая возможное действие

Пример:

 const actions = await stagehand . observe ( ) ;

`page` и `context`

page и context - это случаи Page Playwright и BrowserContext соответственно. Используйте эти методы для взаимодействия с экземпляром драматурга, который использует StageHand. Чаще всего вы используете page.goto() для перемещения в URL.

Пример:

 await stagehand . page . goto ( "https://github.com/browserbase/stagehand" ) ;

`log()`

log() используется для печати сообщения в консоли браузера. Эти сообщения будут сохраняться в журналах сеанса браузербазы и могут использоваться для отладки сеансов после их завершения.

Убедитесь, что уровень журнала выше уровня словеса, который вы устанавливаете при инициализации экземпляра StageHand.

Пример:
```
 stagehand . log ( "Hello, world!" ) ; 
```

Модель поддержки

StageHand использует общую клиентскую архитектуру LLM для поддержки различных языковых моделей от разных поставщиков. Эта конструкция обеспечивает гибкость, что позволяет интеграции новых моделей с минимальными изменениями в основную систему. Различные модели работают лучше для разных задач, поэтому вы можете выбрать модель, которая наилучшим образом соответствует вашим потребностям.

В настоящее время поддерживаются модели

StageHand в настоящее время поддерживает следующие модели от Openai и Anpropic:

Openai модели:
- gpt-4o
- gpt-4o-mini
- gpt-4o-2024-08-06
Антропические модели:
- claude-3-5-sonnet-latest
- claude-3-5-sonnet-20240620
- claude-3-5-sonnet-20241022

Эти модели могут быть указаны при инициализации экземпляра Stagehand или при вызовах таких методов, как act() и extract() .

Как это работает

SDK имеет две основные этапы:

Обработка DOM (включая Chunking - см. Ниже ).
Принимая действия LLM с питанием на основе текущего состояния DOM.

DOM обработка

StageHand использует комбинацию методов для подготовки DOM.

Шаги обработки DOM выглядят следующим образом:

Через Playwright, введите сценарий в DOM, доступный SDK, который может запускать обработку.
Пожмите DOM и создайте список элементов кандидатов.
- Элементы кандидатов - это либо элементы листьев (DOM -элементы, которые содержат фактическое вещество, обращенное к пользователю), либо интерактивные элементы.
- Интерактивные элементы определяются комбинацией ролей и тегов HTML.
Элементы -кандидаты, которые не являются активными, видимыми или в верхней части DOM, отброшены.
- LLM должен получать только элементы, которые он может добросовестно действовать от имени агента/пользователя.
Для каждого элемента кандидата генерируется XPath. Это гарантирует, что если этот элемент будет выбран LLM, мы сможем надежно нацелиться на него.
Верните как список элементов кандидатов, так и карту элементов к селекторам XPath через браузер обратно в SDK, которая будет проанализирована LLM.

Канкинг

В то время как LLMS продолжит увеличивать длину окна контекста и уменьшать задержку, предоставление любой системе рассуждений меньше, чтобы думать, чтобы сделать ее более надежным. В результате обработка DOM выполняется в кусках, чтобы сохранить контекст небольшим вызовом для вывода. Для того, чтобы купить, SDK считает элемент кандидата, который начинается в разделе Viewport, является частью этого куски. В будущем будет добавлена заполнение, чтобы убедиться, что отдельный кусок не испытывает недостатка в соответствующем контексте. Посмотрите на эту диаграмму, как она выглядит:

Зрение

Методы act() и observe() могут занять флаг useVision . Если это установлено в true , LLM будет предоставлен аннотированный скриншот текущей страницы, чтобы определить, какие элементы действовать. Это полезно для сложных DOMS, о котором LLM испытывает трудности с рассуждением, даже после обработки и блюд. По умолчанию этот флаг устанавливается на "fallback" , что означает, что если LLM не сможет успешно идентифицировать один элемент, StageHand повторяет попытку с использованием зрения.

Анализ LLM

Теперь у нас есть список элементов кандидатов и способ их выбрать. Мы можем представить эти элементы с дополнительным контекстом в LLM для извлечения или действия. Несмотря на то, что он в больших масштабах представлял «пронумерованный список элементов», направляет модель не рассматривать контекст как полный DOM, а как список связанных, но независимых элементов для работы.

В случае действия мы просим LLM написать метод драматурга, чтобы сделать правильное дело. В нашем ограниченном тестировании синтаксис драматурга гораздо более эффективен, чем полагаться на встроенные API -интерфейсы JavaScript, возможно, из -за токенизации.

Наконец, мы используем LLM, чтобы написать будущие инструкции, чтобы помочь управлять своим прогрессом и целями при работе в кусках.

Стадия против драматурга

Ниже приведен пример того, как извлечь список компаний с веб -сайта AI Grant, используя как StageHand, так и драматург.

Подсказка советов

Подсказка сцены является более буквальным и атомным, чем другие рамки более высокого уровня, включая агентские рамки. Вот несколько рекомендаций, которые помогут вам создать эффективные подсказки:

Делать:

Используйте конкретные и краткие действия

 await stagehand . act ( { action : "click the login button" } ) ;

const productInfo = await stagehand . extract ( {
  instruction : "find the red shoes" ,
  schema : z . object ( {
    productName : z . string ( ) ,
    price : z . number ( ) ,
  } ) ,
} ) ;

Разбить сложные задачи на более мелкие атомные ступени

Вместо того, чтобы объединять действия:

 // Avoid this
await stagehand . act ( { action : "log in and purchase the first item" } ) ;

Разделите их на отдельные шаги:

 await stagehand . act ( { action : "click the login button" } ) ;
// ...additional steps to log in...
await stagehand . act ( { action : "click on the first item" } ) ;
await stagehand . act ( { action : "click the purchase button" } ) ;

Используйте observe() , чтобы получить действенные предложения с текущей страницы

 const actions = await stagehand . observe ( ) ;
console . log ( "Possible actions:" , actions ) ;

Не:

Используйте широкие или неоднозначные инструкции

 // Too vague
await stagehand . act ( { action : "find something interesting on the page" } ) ;

Объединить несколько действий в одну инструкцию

 // Avoid combining actions
await stagehand . act ( { action : "fill out the form and submit it" } ) ;

Ожидайте, что сцены выполнят планирование или рассуждения высокого уровня

 // Outside Stagehand's scope
await stagehand . act ( { action : "book the cheapest flight available" } ) ;

Следуя этим руководящим принципам, вы повысите надежность и эффективность ваших веб -автоматов с StageHand. Помните, что сцены превосходны в выполнении точных, четко определенных действий, поэтому поддержание атомных инструкций приведет к наилучшим результатам.

Мы оставляем агентское поведение в агентских системах более высокого уровня, которые могут использовать StageHand в качестве инструмента.

Дорожная карта

На высоком уровне мы сосредоточены на повышении надежности, скорости и стоимости в этом порядке приоритета.

Вы можете увидеть дорожную карту здесь. Хотите внести свой вклад? Читайте!

Внося

Примечание

Мы высоко ценим вклад в StageHand! Для поддержки или обзора кода, пожалуйста, присоединяйтесь к нашему сообществу Slack.

Во -первых, клонировать репо

git clone [email protected]:browserbase/stagehand.git

Затем установите зависимости

npm install

Убедитесь, что у вас есть файл .env , как задокументирован выше в разделе «Начало работы».

Затем запустите пример сценария npm run example .

Советы по разработке

Хороший цикл развития:

Попробуйте вещи в примере файла
Используйте это, чтобы внести изменения в SDK
Напишите Evals, которые помогают подтвердить ваши изменения
Убедитесь, что вы не ломаете существующие Evall!
Откройте PR и рассмотрите его командой.

Бегущие эвалы

Вам понадобится ключ API Braintrust для запуска Evals

 BRAINTRUST_API_KEY = " "

После этого вы можете запустить Eval, используя npm run evals

Добавление новых эвал

Запуск всех Evals может занять некоторое время. У нас есть удобный сценарий example.ts

Вы можете запустить npm run example для выполнения и итерации на оценке, которую вы в настоящее время разрабатываете.

Добавление новой модели

Чтобы добавить новую модель в StageHand, следуйте этим шагам:

Определите модель : добавьте новое имя модели в тип AvailableModel в файле LLMProvider.ts . Это гарантирует, что модель распознается системой.
Сопоставьте модель поставщику : обновите modelToProviderMap в классе LLMProvider , чтобы связать новую модель с соответствующим поставщиком. Это отображение имеет решающее значение для определения того, какой клиент использовать.
Реализуйте клиента : если новая модель требует нового клиента, реализуйте класс, который придерживается интерфейса LLMClient . Этот класс должен определять все необходимые методы, такие как createChatCompletion .
Обновите метод getClient : изменить метод getClient в классе LLMProvider , чтобы вернуть экземпляр нового клиента, когда запрошенная новая модель.

Построение SDK

StageHand использует TSUP для построения SDK и Vanilla esbuild для создания сценариев, которые работают в DOM.

Запустить npm run build
Запустите npm pack , чтобы получить тарбол для распространения

Благодарности

Этот проект в значительной степени полагается на драматурга как устойчивую основу для автоматизации Интернета. Это также было бы невозможно без удивительных техник и открытий, сделанных Tarsier и Fuji-Web.

Джереми Пресс написал оригинальный MVP StageHand и продолжает оставаться главным союзником проекта.

Лицензия

Лицензирован по лицензии MIT.

Расширять

Дополнительная информация

Версия v1.3.0
Тип Другой исходный код
Время обновления 2025-02-28
размер 1MB
От Github

Связанные приложения

Google Dorks

2025-03-10
shepherd

2025-06-04
hidusbf

2025-02-14
mongo express

2025-06-04
Free Algorithms Books

2025-05-29
markdownpedia

2025-04-22

stagehand

? Сценический

Вступление

Начиная

1. Установите пакет сцены

2. Настройте поставщик моделей

3. Создайте экземпляр сцены

4. Запустите свою первую автоматизацию

Ссылка на API

Stagehand()

Методы

init()

act()

extract()

observe()

page и context

log()

Модель поддержки

В настоящее время поддерживаются модели

Как это работает

DOM обработка

Канкинг

Зрение

Анализ LLM

Стадия против драматурга

Подсказка советов

Делать:

Не:

Дорожная карта

Внося

Советы по разработке

Бегущие эвалы

Добавление новых эвал

Добавление новой модели

Построение SDK

Благодарности

Лицензия

`Stagehand()`

`init()`

`act()`

`extract()`

`observe()`

`page` и `context`

`log()`