一个 API 搞定全站爬取
传统爬虫要处理的事情很多——页面发现、渲染 JavaScript、格式转换、反爬应对。Cloudflare 把这些全包了。你只需要提交一个起始 URL,它会自动发现页面、用无头浏览器渲染、然后返回你要的格式。
整个流程是异步的:提交 URL,拿到 job ID,轮询结果。
# 发起爬取
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
-H 'Authorization: Bearer <apiToken>' \
-H 'Content-Type: application/json' \
-d '{
"url": "https://blog.cloudflare.com/"
}'
# 查询结果
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
-H 'Authorization: Bearer <apiToken>'
核心能力
- 多种输出格式:HTML、Markdown、结构化 JSON(JSON 由 Workers AI 驱动)
- 爬取范围控制:可配置爬取深度、页面数量上限、URL 路径的通配符包含/排除规则
- 自动页面发现:从 sitemap、页面链接或两者同时发现新 URL
- 增量爬取:通过
modifiedSince和maxAge跳过未变更或近期已抓取的页面,省时省钱 - 静态模式:设置
render: false直接拿静态 HTML,不启动浏览器,适合静态站点 - 合规爬取:遵守 robots.txt 指令,包括
crawl-delay,自我标识为机器人
定价和限制
免费版每天只有 10 分钟的爬取时间,付费版每月 10 小时。对于小规模的 RAG 数据采集或内容监控来说,免费额度基本够用。
有个坑要注意:这个端点无法绕过 Cloudflare 自家的 Bot 检测和验证码。所以别想着用它来突破 Cloudflare WAF 保护的站点——它本身就是以 bot 身份运行的。
对独立开发者的价值
这个服务最直接的应用场景是构建 RAG 管线。以前你需要 Firecrawl、Crawlee 或者自己写爬虫来采集数据喂给 LLM,现在一个 Cloudflare API 就能解决。结合 Workers AI 的 JSON 结构化输出,从爬取到数据清洗可以一步到位。
做内容监控、竞品分析、知识库构建的独立开发者,值得关注这个端点。免费版先跑起来验证场景,确认有价值再考虑付费。