你有没有想过,让 AI 直接"坐"在你的手机前帮你操作?不是调用 API,不是发指令给智能家居,而是真正看着屏幕、判断界面、点击按钮、输入文字——像人类用手机一样。

Andclaw(GitHub)就是做这件事的。它是一个完全运行在 Android 设备上的 AI Agent,背后的核心思路和 OpenClaw 控制桌面的逻辑一脉相承:给 AI 眼睛(屏幕感知)、给 AI 手(模拟操作)、给 AI 大脑(LLM 决策)。

它怎么工作?

Andclaw 的运行循环大概是这样的:

  1. 屏幕感知:每 1.5 秒通过 Android 无障碍服务读取 UI 层次结构(控件树),遇到浏览器/WebView 时自动截图辅助视觉分析
  2. LLM 决策:把屏幕数据 + 最近 12 条历史 + 用户指令打包发给大模型,AI 返回 JSON 格式的操作决策
  3. 执行操作:解析指令后执行点击、滑动、文字输入、Intent 启动、拍照、录屏等动作
  4. 循环检测:同一操作连续执行 5 次则触发截图重试机制(最多 3 轮),防止 Agent 死循环

整个链路完全在手机本地跑,不需要 PC 做中转。

核心能力

操作类型:点击、滑动、长按、文字输入、系统全局操作(返回/Home/通知栏)、Intent 启动应用或拨号

多媒体:拍照、录像、录屏、截图,完成后自动发送到 Telegram

设备管控(需 Device Owner 模式):静默安装/卸载、Kiosk 单应用锁定、禁用摄像头、远程锁屏重启等企业级功能

远程控制:配置 Telegram Bot 后可以远程下发指令,手机回传截图/录像

支持哪些模型?

目前支持两种接入方式:

  • Kimi(Anthropic 格式):Base URL https://api.kimi.com/coding,推荐模型 kimi-k2.5
  • 任意 OpenAI 兼容 API:标准 Chat Completions 格式,GPT-4o、Claude 等均可

两种模式都支持多模态输入,截图可以 base64 附带传给模型做视觉分析。

和其他方案比有什么不同?

方案 无需 Root 无需电脑 独立运行 AI 驱动
Andclaw
Auto.js
ADB + Python 可选
Appium 可选

Andclaw 最大的差异点在于:自然语言驱动 + 完全离机运行。你不需要写脚本,也不需要接电脑,直接告诉手机"打开 B 站,搜索 AI 学习相关视频并播放",AI 自己看着屏幕完成操作。

怎么装?

最简单的方式是用 Chrome 浏览器访问 andclaw.app/#/install 在线安装。

安装后需要做三件事:

  1. 在「设置 → 无障碍」中启用 Andclaw 服务
  2. 授予「悬浮窗」权限(用于显示紧急停止按钮)
  3. 填入 Kimi 或 OpenAI 兼容的 API Key

Device Owner 模式(可选)需要先恢复出厂设置,再通过 ADB 激活,能解锁企业级设备管控能力。

适合谁用?

  • 测试工程师:用自然语言描述 UI 操作,替代手写 Appium 脚本
  • 效率极客:让 AI 处理手机上的重复性操作(填表、查询、截图汇总)
  • 开发者:把 Andclaw 作为安卓 AI Agent 的基础框架,二次开发
  • Telegram 用户:远程下发指令控制手机,出门在外也能操控家里的设备

这个项目目前处于早期阶段,Device Owner 模式的激活需要一次出厂重置,有一定门槛。但对于想在安卓上跑 AI Agent 的人来说,Andclaw 是目前无 Root 方案里最完整的实现之一。