Cloudflare 一个 API 干掉你的爬虫基础设施：Browser Rendering /crawl 端点实测

一个 API 搞定全站爬取

传统爬虫要处理的事情很多——页面发现、渲染 JavaScript、格式转换、反爬应对。Cloudflare 把这些全包了。你只需要提交一个起始 URL，它会自动发现页面、用无头浏览器渲染、然后返回你要的格式。

整个流程是异步的：提交 URL，拿到 job ID，轮询结果。

# 发起爬取
curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' \
  -H 'Authorization: Bearer <apiToken>' \
  -H 'Content-Type: application/json' \
  -d '{
    "url": "https://blog.cloudflare.com/"
  }'

# 查询结果
curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' \
  -H 'Authorization: Bearer <apiToken>'

核心能力

多种输出格式：HTML、Markdown、结构化 JSON（JSON 由 Workers AI 驱动）
爬取范围控制：可配置爬取深度、页面数量上限、URL 路径的通配符包含/排除规则
自动页面发现：从 sitemap、页面链接或两者同时发现新 URL
增量爬取：通过 modifiedSince 和 maxAge 跳过未变更或近期已抓取的页面，省时省钱
静态模式：设置 render: false 直接拿静态 HTML，不启动浏览器，适合静态站点
合规爬取：遵守 robots.txt 指令，包括 crawl-delay，自我标识为机器人

定价和限制

免费版每天只有 10 分钟的爬取时间，付费版每月 10 小时。对于小规模的 RAG 数据采集或内容监控来说，免费额度基本够用。

有个坑要注意：这个端点无法绕过 Cloudflare 自家的 Bot 检测和验证码。所以别想着用它来突破 Cloudflare WAF 保护的站点——它本身就是以 bot 身份运行的。

对独立开发者的价值

这个服务最直接的应用场景是构建 RAG 管线。以前你需要 Firecrawl、Crawlee 或者自己写爬虫来采集数据喂给 LLM，现在一个 Cloudflare API 就能解决。结合 Workers AI 的 JSON 结构化输出，从爬取到数据清洗可以一步到位。

做内容监控、竞品分析、知识库构建的独立开发者，值得关注这个端点。免费版先跑起来验证场景，确认有价值再考虑付费。