基于 Rust 的高速无头浏览器自动化 CLI,支持 Node.js 回退,让 AI 智能体能够通过结构化命令导航、点击、输入并截取页面。
Agent Browser 是一款使用 Rust 构建(并提供 Node.js 回退方案)的快速无头浏览器自动化命令行工具,专为 AI 智能体设计。它让智能体能够通过简单、可组合的 Shell 命令导航 URL、使用稳定的 @ref 标识符与页面元素交互、提取结构化数据、捕获截图、录制视频以及管理会话。无论是自动化表单提交、抓取动态内容,还是测试 Web UI,Agent Browser 都为真实浏览器行为提供了一致、可脚本化的接口。
npx clawhub@latest install agent-browser点击本页顶部的 安装 按钮即可一键设置
运行 agent-browser snapshot -i 获取所有带有稳定 @ref 标识符(例如 @e1、@e2)的交互元素列表。在后续的点击、填写、悬停或获取命令中直接使用这些 ref——无需 CSS 选择器或 XPath。
支持点击、双击、聚焦、填写、输入、按键/按住/释放、悬停、复选框勾选/取消勾选、下拉选择、拖放、文件上传和滚动——几乎涵盖浏览器支持的所有用户交互。
使用 agent-browser state save 将已验证的浏览器状态(Cookie、存储)保存到 JSON 文件,然后在未来的会话中重新加载以跳过重新验证。通过 --session <name> 实现并行隔离会话,允许同时运行多个浏览器上下文。
捕获全页截图、将页面保存为 PDF,或将浏览器交互录制为 .webm 视频文件。录制会保留当前会话的 Cookie 和存储,非常适合创建可复现的演示。
使用 agent-browser network route 拦截、阻止或模拟 HTTP 请求。过滤和检查已跟踪的请求,以调试 API 调用或在测试期间模拟离线/错误状态。
当 ref 不可用时,使用语义定位器通过 ARIA 角色、可见文本、标签或 CSS 选择器查找元素——例如,agent-browser find role button click --name "Submit" 或 agent-browser find text "Sign In" click。
AI 智能体打开目标 URL,对页面进行快照以通过 ref 识别表单字段,使用 agent-browser fill 填写每个字段,通过点击提交,然后等待网络空闲并重新快照以确认成功——全程无需人工介入。
以交互方式登录一次,使用 agent-browser state save auth.json 保存会话,并在以后所有智能体运行时重新加载。这样可以避免重复的登录流程,并将凭据排除在自动化脚本之外。
导航到 JavaScript 渲染的页面,运行 agent-browser snapshot 捕获完整的可访问性树,然后使用 agent-browser get text 或 agent-browser get attr 命令提取普通 HTTP 爬虫无法获取的结构化内容。
编写一系列浏览器交互脚本,在每个步骤捕获截图或录制视频,并导出最终状态的 PDF——为 QA 流水线提供跨测试运行的预期行为视觉证明。
登录后撰写评价
暂无评价。来分享你的使用体验吧!