苹果神经引擎首次实现本地训练：独立开发者解锁ANE原生算力，GPU不再必要

性能数据：被严重低估的本地算力

该开源项目（GitHub 仓库：maderix/ANE）在 M4 芯片上实现了以下表现：

更值得关注的是能效比：M4 ANE 的每瓦算力约 6.6 TFLOPS，比 NVIDIA A100 高出约 80 倍。实测吞吐量也远超苹果官方宣传的"38 TOPS"。由于功耗极低，7×24 小时训练对电费几乎没有影响。

过去，微调或训练一个大模型通常意味着：

现在，任何拥有 Mac 的人都可以在本地完成模型微调和训练——私密、低成本、无需依赖云端。训练成本从数万甚至数十万美元量级，骤降到几乎只有 Mac 待机时的电费。

这项突破直接关系到"零人力公司"（Zero-Human Company）的可行性。其核心价值在于：

目前该项目还处于早期阶段——仅支持单层 Transformer 训练，完整模型的支持还在推进中。但核心路径已经打通：超低成本、设备端训练已经成为现实。

如果你正在搭建 AI Agent 自动化工作流，现在值得关注本地训练这条路线。当微调成本降到足够低，每个一人公司都可以拥有自己的专属模型——这比调用通用 API 更精准、更私密、也更具竞争壁垒。建议持续跟进 ANE 开源项目的进展，提前规划本地训练在自身业务流中的落地场景。