Skill:按需加载的专项能力
把AI想象成一个武功高强的人。模型本身的智力就是他的内功,但内功再深厚,遇到从没见过的事,他也束手无策。比如你让他处理一个PDF文件——大语言模型天生只理解文本输入,哪怕是多模态模型,也不自带PDF阅读能力。
这时候就需要给他一本"操作手册",告诉他怎么处理PDF。这本手册,就是Skill。
Skill最巧妙的设计在于按需加载。平时这些知识并不会塞进AI的工作记忆里,只有当AI碰到相关问题时,才会自动解锁对应的Skill。换句话说,Skill完全不占用上下文窗口。
这一点非常关键。上下文过长会严重拖累AI的表现——它会开始遗忘前面的指令、混淆关键信息。通过Skill机制,AI既保持了轻装上阵的状态,又能在需要时随时调用专项能力。
Agents.md:定义AI的工作准则
一个人能力再强,如果做事没有章法,也不会是好帮手。Agents.md就是用来定义AI"怎么做事"的配置文件,相当于给它一套工作准则。
举个例子:你在Agents.md里写上"每完成一轮工作后,用子代理来审查工作结果",AI就会严格按照这个流程执行。你还可以要求它写完代码后必须回头检查、不能跳过测试、输出风格要简洁——所有这些行为规范,都可以写进Agents.md。
Claude Code的作者本人公开了自己的Agents.md配置,设计理念很值得参考,建议直接借鉴他的思路来搭建自己的版本。
MCP:连接外部世界的通行证
AI有了智力(模型)、有了专项技能(Skill)、有了工作准则(Agents.md),但如果只能在本地环境里闭门造车,能做的事终究有限。
它需要访问你的本地文件,需要查询外部数据库,需要接入Slack、GitHub这些实时工具来获取最新信息。MCP(Model Context Protocol)就是解决这个问题的协议。
可以把MCP理解为一张"通行证"。大的机构和平台制定好一套标准接口,AI拿着这张通行证就能按规范访问各种不同的内容和服务。比如后面会频繁用到的Playwright MCP,它让AI学会了控制浏览器——打开网页、点击按钮、截图,这些原本AI做不到的事,通过MCP就变得轻而易举。
实操:从PDF到上线一个网站
理解了这三个概念,来看一个完整的实操流程。目标是:把一份PDF里的文章提取出来,做成一个可以公开访问的静态网页。
第一步:选择模型
打开终端进入Codex界面,输入 /model 选择最新的模型。如果任务比较重要,建议选择更高的推理等级。
第二步:用Skill处理PDF
项目目录里只有一个PDF文件。直接问AI能不能处理——它会自动识别到自己具备PDF Skill,然后开始提取内容。关键指令是:
我需要你帮我把文章抽取出来,并且不要漏掉里面的图片,你能做到吗?
AI会把PDF转换成Markdown文件,文章和图片都完整保留。
第三步:安装MCP和Skill
让AI自己安装Playwright MCP(不需要手动操作,交给AI来完成)。安装完成后重启Codex,让AI通过Playwright去GitHub上查找官方推荐的前端Skill,选一个合适的安装上。
第四步:生成网页
调用前端Skill,告诉AI你的需求:
$artifacts-builder 帮我制作一个网页,目的是展示目录中这个大神的文章,
做的有点像那种展览馆的感觉,然后里面按照点赞数来排列,
点赞数最多的放前面。记得文章的时间一定要带上!
另外,这里面有一些文章是有图片的,目前我已经转写好了
第五步:一键部署
用官方提供的Cloudflare部署Skill,一句话搞定:
$cloudflare-deploy 帮我部署吧
整个过程不需要你手动写任何代码,也不需要你去配置部署流程。从PDF提取到网站上线,全部由AI代劳。
写在最后
Skill、Agents.md、MCP这三个机制各司其职:Skill提供按需调用的专项能力,Agents.md规定工作流程和行为准则,MCP打通与外部世界的连接。把它们组合起来,AI编程助手就不再只是一个"帮你补全代码"的工具,而是一个能独立完成从数据处理到产品部署的全流程搭档。建议从配置自己的Agents.md开始——它是让AI真正按你的方式工作的第一步。