为什么需要 AAI?
GUI vs AAI:两种交互范式
GUI 时代: 人类 <-> 视觉界面 <-> 鼠标/键盘 <-> 事件处理 <-> 业务逻辑
AAI 时代: Agent <-> 结构化命令 (JSON) <-> 直接调用 <-> 业务逻辑AI Agent 正变得越来越强大——能够理解复杂任务、规划执行步骤、协调多个工作流。但当它们需要操作实际应用程序时,仍然被迫像人类一样"看屏幕、点按钮"。
当前自动化的局限性
| 工具类型 | 示例 | 工作原理 |
|---|---|---|
| 浏览器自动化 | Playwright MCP, Chrome DevTools MCP | DOM 选择器或视觉识别 -> 模拟点击 |
| 桌面自动化 | Open Interpreter, Computer Use | 截图 + 视觉识别 -> GUI 交互 |
这些工具仍然通过 GUI 层来操作,模拟人类交互,而非直接调用应用程序的能力。
| 局限性 | 说明 |
|---|---|
| 速度慢 | GUI 自动化每次操作需要数秒;直接 IPC 调用仅需毫秒 |
| 无法并行 | 桌面焦点限制导致无法同时协调多个应用 |
| 脆弱 | UI 变更、弹窗、分辨率差异会破坏自动化流程 |
双接口架构
未来的应用程序应提供两个独立的接口:
Future Application
┌──────────────────┐ ┌──────────────────┐
│ Human Visual UI │ │ Agent Interface │
│ (GUI) │ │ (AAI) │
│ │ │ │
│ Buttons & Forms │ │ Structured Tools │
│ Drag & Drop │ │ Native IPC │
│ Instant Feedback │ │ Parallel Support │
└────────┬──────────┘ └────────┬──────────┘
│ │
└──────────┬─────────────┘
│
┌──────────┴──────────┐
│ Core Logic Layer │
│ (Business Logic) │
└──────────────────────┘AAI 在 Agent 技术栈中的位置
┌──────────────────────────────────────┐
│ Model (GPT/Claude) - Intelligence │
├──────────────────────────────────────┤
│ Context (MCP) - Model gets info │
├──────────────────────────────────────┤
│ Action (AAI) - Model executes ops │ <-- 本协议
├──────────────────────────────────────┤
│ Platform (OS/Browser) - Carrier │
└──────────────────────────────────────┘AAI 是 Agent 的执行层,基于 MCP 标准构建,对现有框架零侵入。