四层数据管线架构

这个用例的核心设计是一条四层数据采集管线,合计覆盖109个信息源:

  • 第一层:RSS订阅(46个源)——OpenAI官方博客、Hacker News、MIT Tech Review等主流科技媒体,负责覆盖面
  • 第二层:推特KOL监控(44个账号)——Karpathy、Sam Altman、Vitalik Buterin等行业关键人物,很多重磅消息最先出现在推特而非正式文章
  • 第三层:GitHub Release追踪(19个仓库)——vLLM、LangChain、Ollama、Dify等热门项目,框架更新日志里经常藏着直接影响开发工作的变更
  • 第四层:网络搜索(4个主题)——通过Brave Search API做关键词搜索,兜底前三层覆盖不到的信息

一个人手动盯109个信息源,不现实。但聚合只是第一步。

评分机制:模拟资深编辑的判断

所有抓回来的内容先做标题去重,避免同一条新闻跨渠道重复。然后每条内容按规则打分:

规则 加分
来自优先来源 +3分
多个来源同时报道 +5分
时效性好 +2分
互动量高 +1分

按总分排序,高分靠前。逻辑很清晰:多家媒体同时报道的大概率是真正的大事,权威来源比小博客可信,新鲜事比旧闻重要,高讨论度的内容值得关注。

搭建过程

安装Skill只需一句话:

Install tech-news-digest from ClawHub. Set up a daily tech digest at 9am to Discord #tech-news channel.

添加自定义信息源:

Add these to my tech digest sources: RSS: https://xxx.com/feed, Twitter: <username>, GitHub: my-org/my-framework

临时生成一份日报:

Generate a tech digest for the past 24 hours and send it here.

全程自然语言操作,不写代码,不配yaml,不折腾webhook。输出端支持Discord、邮箱、Telegram、飞书等渠道。

可选配置

三个环境变量按需配置:

  • 推特API Token——用于抓取KOL动态
  • Brave Search API Key——用于搜索层
  • GitHub Token——提高API请求频率上限

不配也能跑,只是对应数据层会受限。

设计思路的价值

这个用例真正值得学习的不是功能本身,而是它的拆解方法。它没有试图做一个"万能信息助手",而是把"追踪科技动态"这一个具体场景拆成四层清晰的管线,每层的数据源数量和评分权重都经过设计。这种把复杂问题拆成清晰管线的思路在软件架构中常见,但用在AI Agent的Skill设计上做到这个清晰度,值得参考。

而且它是开源的——46个RSS源不够就加,某个KOL不值得关注就删,评分规则想调就改权重。框架搭好了,内容你自己定。

如果你每天在信息筛选上花超过30分钟,值得把这套管线跑起来。把聚合和初筛交给AI,你只负责看结果、做判断。