第一阶段:Candidate Pipeline — 候选召回

系统从多个数据源广泛召回"可能相关"的内容,不做精细筛选,目标是构建一个足够大的候选池。这一步的核心逻辑是宁多勿漏,确保后续环节有足够的素材可供排序。

第二阶段:Thunder — 关注流粗排

针对"你关注的人"发布的内容进行初步排序。排序信号包括:

  • 互动频率:你与该用户的历史点赞、回复频次
  • 内容时效性:发布时间的新鲜度
  • 兴趣匹配度:你过往对此类内容的消费习惯

关注关系在推荐系统中天然具有更高权重,因此单独提取做基础排序。

第三阶段:Phoenix — 模型精排

这是整个管线的核心环节,使用预测模型(推测为 Grok 推理模块)对每条候选内容进行精细打分。预测维度包括:

  • 用户是否会点赞
  • 用户是否会评论
  • 用户是否会转发
  • 用户是否会停留阅读(即单帖停留时长)

这些预测值最终合成一个综合得分。关键点在于:无论内容来自关注用户还是陌生用户,都会经过同一套精排模型打分,系统只关心"最可能产生互动"的内容。

第四阶段:Home Mixer — 混排与去重

最终阶段将不同来源的内容按比例混合——一部分来自关注流,一部分来自热门和兴趣推荐。这一阶段最关键的机制是去重

系统会计算同一时间窗口内内容的相似度,过滤掉高度重复的帖子。即使你的内容质量很高,如果与已有内容高度相似,也很难进入 For You 推荐流。

对内容创作者的启示

这套算法揭示了一个重要规律:内容的独特性比完美度更重要。大量同质化的技术 Demo 展示、千篇一律的工具推荐,在精排模型眼中很难获得高分——因为缺乏真实互动反馈,评论区只有泛泛的夸赞,系统无法为账号建立清晰的标签和主题定位。

对于独立开发者而言,与其追逐热点发布雷同内容,不如围绕自己的产品和真实经验建立差异化的内容标签,让推荐系统能够精准定位你的受众。

此外,发帖频率和时间间隔可能受后台冷却时间(CD)机制控制,这部分尚待进一步研究验证。感兴趣的开发者可以直接阅读 GitHub 上的开源代码,深入理解各阶段的具体实现。