Skip to content

为什么需要 AAI?

GUI vs AAI:两种交互范式

GUI 时代:   人类 <-> 视觉界面 <-> 鼠标/键盘 <-> 事件处理 <-> 业务逻辑
AAI 时代:   Agent <-> 结构化命令 (JSON) <-> 直接调用 <-> 业务逻辑

AI Agent 正变得越来越强大——能够理解复杂任务、规划执行步骤、协调多个工作流。但当它们需要操作实际应用程序时,仍然被迫像人类一样"看屏幕、点按钮"。

当前自动化的局限性

工具类型示例工作原理
浏览器自动化Playwright MCP, Chrome DevTools MCPDOM 选择器或视觉识别 -> 模拟点击
桌面自动化Open Interpreter, Computer Use截图 + 视觉识别 -> GUI 交互

这些工具仍然通过 GUI 层来操作,模拟人类交互,而非直接调用应用程序的能力。

局限性说明
速度慢GUI 自动化每次操作需要数秒;直接 IPC 调用仅需毫秒
无法并行桌面焦点限制导致无法同时协调多个应用
脆弱UI 变更、弹窗、分辨率差异会破坏自动化流程

双接口架构

未来的应用程序应提供两个独立的接口:

                Future Application
 ┌──────────────────┐    ┌──────────────────┐
 │  Human Visual UI  │    │  Agent Interface  │
 │     (GUI)         │    │     (AAI)         │
 │                   │    │                   │
 │  Buttons & Forms  │    │  Structured Tools │
 │  Drag & Drop      │    │  Native IPC       │
 │  Instant Feedback │    │  Parallel Support │
 └────────┬──────────┘    └────────┬──────────┘
          │                        │
          └──────────┬─────────────┘

          ┌──────────┴──────────┐
          │   Core Logic Layer   │
          │   (Business Logic)   │
          └──────────────────────┘

AAI 在 Agent 技术栈中的位置

┌──────────────────────────────────────┐
│  Model (GPT/Claude) - Intelligence   │
├──────────────────────────────────────┤
│  Context (MCP) - Model gets info     │
├──────────────────────────────────────┤
│  Action (AAI) - Model executes ops   │  <-- 本协议
├──────────────────────────────────────┤
│  Platform (OS/Browser) - Carrier     │
└──────────────────────────────────────┘

AAI 是 Agent 的执行层,基于 MCP 标准构建,对现有框架零侵入。

Released under the Apache 2.0 License.