你有没有想过,让 AI 直接"坐"在你的手机前帮你操作?不是调用 API,不是发指令给智能家居,而是真正看着屏幕、判断界面、点击按钮、输入文字——像人类用手机一样。
Andclaw(GitHub)就是做这件事的。它是一个完全运行在 Android 设备上的 AI Agent,背后的核心思路和 OpenClaw 控制桌面的逻辑一脉相承:给 AI 眼睛(屏幕感知)、给 AI 手(模拟操作)、给 AI 大脑(LLM 决策)。
它怎么工作?
Andclaw 的运行循环大概是这样的:
- 屏幕感知:每 1.5 秒通过 Android 无障碍服务读取 UI 层次结构(控件树),遇到浏览器/WebView 时自动截图辅助视觉分析
- LLM 决策:把屏幕数据 + 最近 12 条历史 + 用户指令打包发给大模型,AI 返回 JSON 格式的操作决策
- 执行操作:解析指令后执行点击、滑动、文字输入、Intent 启动、拍照、录屏等动作
- 循环检测:同一操作连续执行 5 次则触发截图重试机制(最多 3 轮),防止 Agent 死循环
整个链路完全在手机本地跑,不需要 PC 做中转。
核心能力
操作类型:点击、滑动、长按、文字输入、系统全局操作(返回/Home/通知栏)、Intent 启动应用或拨号
多媒体:拍照、录像、录屏、截图,完成后自动发送到 Telegram
设备管控(需 Device Owner 模式):静默安装/卸载、Kiosk 单应用锁定、禁用摄像头、远程锁屏重启等企业级功能
远程控制:配置 Telegram Bot 后可以远程下发指令,手机回传截图/录像
支持哪些模型?
目前支持两种接入方式:
- Kimi(Anthropic 格式):Base URL
https://api.kimi.com/coding,推荐模型kimi-k2.5 - 任意 OpenAI 兼容 API:标准 Chat Completions 格式,GPT-4o、Claude 等均可
两种模式都支持多模态输入,截图可以 base64 附带传给模型做视觉分析。
和其他方案比有什么不同?
| 方案 | 无需 Root | 无需电脑 | 独立运行 | AI 驱动 |
|---|---|---|---|---|
| Andclaw | ✅ | ✅ | ✅ | ✅ |
| Auto.js | ✅ | ✅ | ✅ | ❌ |
| ADB + Python | ✅ | ❌ | ❌ | 可选 |
| Appium | ✅ | ❌ | ❌ | 可选 |
Andclaw 最大的差异点在于:自然语言驱动 + 完全离机运行。你不需要写脚本,也不需要接电脑,直接告诉手机"打开 B 站,搜索 AI 学习相关视频并播放",AI 自己看着屏幕完成操作。
怎么装?
最简单的方式是用 Chrome 浏览器访问 andclaw.app/#/install 在线安装。
安装后需要做三件事:
- 在「设置 → 无障碍」中启用 Andclaw 服务
- 授予「悬浮窗」权限(用于显示紧急停止按钮)
- 填入 Kimi 或 OpenAI 兼容的 API Key
Device Owner 模式(可选)需要先恢复出厂设置,再通过 ADB 激活,能解锁企业级设备管控能力。
适合谁用?
- 测试工程师:用自然语言描述 UI 操作,替代手写 Appium 脚本
- 效率极客:让 AI 处理手机上的重复性操作(填表、查询、截图汇总)
- 开发者:把 Andclaw 作为安卓 AI Agent 的基础框架,二次开发
- Telegram 用户:远程下发指令控制手机,出门在外也能操控家里的设备
这个项目目前处于早期阶段,Device Owner 模式的激活需要一次出厂重置,有一定门槛。但对于想在安卓上跑 AI Agent 的人来说,Andclaw 是目前无 Root 方案里最完整的实现之一。