底层沙箱:E2B Firecracker 微虚拟机
沙箱隔离层采用 E2B 的 Firecracker 微虚拟机技术,专为 AI 代码执行设计,能在约 150-170 毫秒内启动一个轻量级虚拟机。据 Perplexity CTO Denis Yarats 透露,目前每月运行数百万个 E2B 沙箱。
每个沙箱实例具备三项核心能力:
- 真实文件系统:可像人类开发者一样读写文件、持久存储数据、代码和报告
- 真实浏览器实例:Comet 浏览器作为 AI 原生浏览器,支持自主浏览网页、提取数据、填写表单
- 数百个连接器:支持与 Gmail、Slack、Notion、GitHub、Jira 等主流工具集成
Firecracker 微虚拟机相比 Docker 容器拥有更强的安全隔离级别,同时保持毫秒级启动速度——这是传统虚拟机无法做到的。
多模型智能路由:让专业的模型做专业的事
系统编排着 19 个不同的 AI 模型,核心理念是"模型即服务"——每个前沿模型在不同任务上各有专长。具体路由策略如下:
| 任务类型 | 分配模型 |
|---|---|
| 核心推理与任务编排 | Claude Opus 4.6 |
| 快速轻量任务 | Grok |
| 长上下文回忆 | ChatGPT 5.2 |
| 深度研究 | Gemini |
| 图像生成 | Nano Banana |
| 视频生成 | Veo 3.1 |
Claude Opus 4.6 担任核心推理引擎,负责接收用户指令、构建结构化任务图,并将子任务委托给对应的 specialist 模型。系统内置一个 meta-router(元路由器),根据任务类型、复杂度和延迟要求动态选择最佳模型。用户也可以手动覆盖默认路由,为特定子任务指定模型或设置消费限额。
并行处理与异步协调:任务图的动态编排
这是实现极速执行的关键。系统将用户的宏观目标分解为结构化任务图(task graph),然后根据任务类型动态路由到矩阵中的不同沙箱:
- 一个沙箱用 Gemini 处理研究任务
- 另一个沙箱用 Nano Banana 生成图像
- 第三个沙箱用 Grok 部署代码
这些工作完全异步进行,用户可以同时运行数十个实例而不会相互阻塞。面对复杂任务时,系统快速横向扩展(scale out),动态创建新的沙箱实例来处理额外工作负载,无需串行等待。
持久内存系统:从数量到精度的转变
2026 年 2 月的内存引擎升级带来了关键改进:
- 相关交互回忆准确率从 77% 提升至约 95%
- 存储记忆数量减少一半——战略性地从数量转向精度
- 个性化上下文可跨模型跟随(通过 Model Council 功能)
沙箱支持跨会话持久内存,能记住用户偏好、历史上下文和已创建的文件,使长期项目无需每次从零开始。同时确保数据不会跨沙箱泄漏,维持严格的边界隔离。
安全隔离:多层防护机制
相比本地代理方案,Cloud Sandbox 模式解决了三个核心安全问题:
- 安全失败范围:限制在短暂的沙箱内,不影响宿主环境
- 提示注入风险:通过沙箱隔离缓解
- 压缩错误风险:通过子任务委托降低
系统还内置人类检查点机制——执行不可逆操作前暂停等待人工审核。所有活动维护完整审计日志,记录任务执行、信用消耗和连接器使用情况。
对 Agent 搭建者的实践启示
Sandbox Matrix 的架构公式可以概括为:专业化分工 + 弹性伸缩 + 智能调度 = 高效执行。
对于正在搭建 AI Agent 或自动化工作流的开发者,有几点直接可用的经验:
- 多模型编排优于单模型万能:根据子任务特性选择最合适的模型,而非用一个模型处理所有事情
- 沙箱隔离是 Agent 安全执行的基础:E2B 等工具已将微虚拟机的启动时间压缩到毫秒级,值得在自己的 Agent 系统中采用
- 任务图 + 并行执行是提速关键:将复杂目标拆解为可并行的子任务图,是突破单线程执行瓶颈的核心方法
- 设计提示词时使用结构化框架:采用 Goal-Inputs-Outputs-Guardrails-Confirm 的结构化框架,可以显著提高任务首次通过率