为什么需要 AAI？

GUI vs AAI：两种交互范式

GUI 时代:   人类 <-> 视觉界面 <-> 鼠标/键盘 <-> 事件处理 <-> 业务逻辑
AAI 时代:   Agent <-> 结构化命令 (JSON) <-> 直接调用 <-> 业务逻辑

AI Agent 正变得越来越强大——能够理解复杂任务、规划执行步骤、协调多个工作流。但当它们需要操作实际应用程序时，仍然被迫像人类一样"看屏幕、点按钮"。

当前自动化的局限性

工具类型	示例	工作原理
浏览器自动化	Playwright MCP, Chrome DevTools MCP	DOM 选择器或视觉识别 -> 模拟点击
桌面自动化	Open Interpreter, Computer Use	截图 + 视觉识别 -> GUI 交互

这些工具仍然通过 GUI 层来操作，模拟人类交互，而非直接调用应用程序的能力。

局限性	说明
速度慢	GUI 自动化每次操作需要数秒；直接 IPC 调用仅需毫秒
无法并行	桌面焦点限制导致无法同时协调多个应用
脆弱	UI 变更、弹窗、分辨率差异会破坏自动化流程

双接口架构

未来的应用程序应提供两个独立的接口：

                Future Application
 ┌──────────────────┐    ┌──────────────────┐
 │  Human Visual UI  │    │  Agent Interface  │
 │     (GUI)         │    │     (AAI)         │
 │                   │    │                   │
 │  Buttons & Forms  │    │  Structured Tools │
 │  Drag & Drop      │    │  Native IPC       │
 │  Instant Feedback │    │  Parallel Support │
 └────────┬──────────┘    └────────┬──────────┘
          │                        │
          └──────────┬─────────────┘
                     │
          ┌──────────┴──────────┐
          │   Core Logic Layer   │
          │   (Business Logic)   │
          └──────────────────────┘

AAI 在 Agent 技术栈中的位置

┌──────────────────────────────────────┐
│  Model (GPT/Claude) - Intelligence   │
├──────────────────────────────────────┤
│  Context (MCP) - Model gets info     │
├──────────────────────────────────────┤
│  Action (AAI) - Model executes ops   │  <-- 本协议
├──────────────────────────────────────┤
│  Platform (OS/Browser) - Carrier     │
└──────────────────────────────────────┘

AAI 是 Agent 的执行层，基于 MCP 标准构建，对现有框架零侵入。

为什么需要 AAI？ ​

GUI vs AAI：两种交互范式 ​

当前自动化的局限性 ​

双接口架构 ​

AAI 在 Agent 技术栈中的位置 ​

为什么需要 AAI？

GUI vs AAI：两种交互范式

当前自动化的局限性

双接口架构

AAI 在 Agent 技术栈中的位置