一个 API 搞定全站爬取

传统爬虫要处理的事情很多——页面发现、渲染 JavaScript、格式转换、反爬应对。Cloudflare 把这些全包了。你只需要提交一个起始 URL,它会自动发现页面、用无头浏览器渲染、然后返回你要的格式。

整个流程是异步的:提交 URL,拿到 job ID,轮询结果。

# 发起爬取
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
  -H 'Authorization: Bearer <apiToken>' \
  -H 'Content-Type: application/json' \
  -d '{
    "url": "https://blog.cloudflare.com/"
  }'

# 查询结果
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
  -H 'Authorization: Bearer <apiToken>'

核心能力

  • 多种输出格式:HTML、Markdown、结构化 JSON(JSON 由 Workers AI 驱动)
  • 爬取范围控制:可配置爬取深度、页面数量上限、URL 路径的通配符包含/排除规则
  • 自动页面发现:从 sitemap、页面链接或两者同时发现新 URL
  • 增量爬取:通过 modifiedSincemaxAge 跳过未变更或近期已抓取的页面,省时省钱
  • 静态模式:设置 render: false 直接拿静态 HTML,不启动浏览器,适合静态站点
  • 合规爬取:遵守 robots.txt 指令,包括 crawl-delay,自我标识为机器人

定价和限制

免费版每天只有 10 分钟的爬取时间,付费版每月 10 小时。对于小规模的 RAG 数据采集或内容监控来说,免费额度基本够用。

有个坑要注意:这个端点无法绕过 Cloudflare 自家的 Bot 检测和验证码。所以别想着用它来突破 Cloudflare WAF 保护的站点——它本身就是以 bot 身份运行的。

对独立开发者的价值

这个服务最直接的应用场景是构建 RAG 管线。以前你需要 Firecrawl、Crawlee 或者自己写爬虫来采集数据喂给 LLM,现在一个 Cloudflare API 就能解决。结合 Workers AI 的 JSON 结构化输出,从爬取到数据清洗可以一步到位。

做内容监控、竞品分析、知识库构建的独立开发者,值得关注这个端点。免费版先跑起来验证场景,确认有价值再考虑付费。