阿里 Page-Agent.js 深度解析:让网页自动执行任务的 AI 工具
2026-04-08 341 0
什么是 Page-Agent.js?
Page-Agent.js 是由 阿里巴巴 开源的一款浏览器内 AI 代理(GUI Agent)框架,其核心理念是:让用户通过自然语言直接操作网页界面。它可以理解为一个住在网页里的 AI 操作员,用户只需输入一句话,例如:点击登录按钮并填写账号密码,Page-Agent 就可以自动解析页面结构(DOM),并完成点击、输入、跳转等操作。
- Page-Agent.js 官网:https://alibaba.github.io/page-agent/
- Page-Agent.js GitHub:https://github.com/alibaba/page-agent
这意味着传统需要 Selenium / Puppeteer 编写大量脚本的操作,现在可以用说话完成。

核心技术原理
Page-Agent.js 的本质是:LLM + DOM 操作 + 前端 Agent 架构,其运行机制可以拆解为三步:
- 页面理解(DOM Extraction):Agent 会解析当前网页的 DOM 结构,获取按钮、输入框、文本等元素信息。
- 自然语言理解(LLM):通过接入大模型(如 OpenAI、通义千问等),将用户指令转化为可执行操作。
- 行为执行(Action Engine):将解析后的指令映射为具体行为,例如:click(点击)、input(输入)navigate(跳转),最终完成自动化操作。
与传统 AI 浏览器不同,它不依赖截图或多模态识别,而是直接基于 DOM 进行操作,效率更高。

Page-Agent.js 的核心特点
1. 自然语言驱动网页操作
无需理解 HTML、CSS 或 JS,直接说人话即可操作网页。这极大降低了自动化门槛。
2. 纯前端运行(无需后端)
Page-Agent 是一个完全运行在浏览器中的前端库:
- 不需要服务器
- 不需要 Python 环境
- 不需要浏览器插件
只需引入一行 JS 即可使用。
3. 多模型兼容(LLM 可插拔)
支持接入多种大模型:OpenAI、通义千问、DeepSeek 等,开发者可以自由替换模型,实现成本与性能平衡。
4. 人机协同(Human-in-the-loop)
内置确认机制:AI 执行前可以由用户确认,避免误操作,提升安全性。
5. 极低接入成本
官方示例中,仅需引入js文件:
<script src="page-agent.js"></script>
即可让网页具备 AI 操作能力。

根据官网的教程可以直接在别的网站上使用 Page-Agent 功能,操作也是非常简单。

典型应用场景
Page-Agent.js 的真正价值,在于它改变了 Web 交互方式。
1. 网站 AI 助手(AI Copilot)
例如帮用户填写表单,自动完成复杂流程,引导用户操作后台系统,让SaaS 产品体验大幅提升。
2. Web 自动化(替代 Selenium)
传统方式是写脚本,使用Page-Agent后只要写一句话就能实现,适用于自动测试,数据录入,后台操作自动化等。
3. 无障碍访问优化
对于不熟悉电脑操作的用户,直接用语言控制网页,大幅降低使用门槛。
4. 企业系统智能化(ERP / CRM)
复杂系统操作步骤多,Page-Agent 可以变成智能操作助手。

与传统自动化工具对比
| 维度 | 传统工具(Selenium) | Page-Agent.js |
|---|---|---|
| 操作方式 | 编写脚本 | 自然语言 |
| 使用门槛 | 高 | 低 |
| 部署 | 需要环境 | 纯前端 |
| 维护成本 | 高 | 低 |
| 灵活性 | 依赖代码 | AI自适应 |
它们的本质差异是从编程驱动 → 语言驱动。
Page-Agent 的意义:Web 进入 Agent 时代
Page-Agent.js 的出现,代表一个重要趋势:网页正在从被操作变为可对话。前端不再只是 UI,而是智能交互层。用户不再点击,而是指挥。自动化不再属于开发者,而是所有人。这也是 AI Agent 在浏览器侧落地的重要一步。
总结
Page-Agent.js 并不是简单的自动化工具,而是Web + AI Agent 的融合产物。它的核心价值在于降低了网页操作门槛,提升了用户体验,重构了前端交互方式。如果说过去十年是移动互联网时代,那么未来十年,很可能是 Agent 驱动的互联网时代。