第一阶段:Candidate Pipeline — 候选召回
系统从多个数据源广泛召回"可能相关"的内容,不做精细筛选,目标是构建一个足够大的候选池。这一步的核心逻辑是宁多勿漏,确保后续环节有足够的素材可供排序。
第二阶段:Thunder — 关注流粗排
针对"你关注的人"发布的内容进行初步排序。排序信号包括:
- 互动频率:你与该用户的历史点赞、回复频次
- 内容时效性:发布时间的新鲜度
- 兴趣匹配度:你过往对此类内容的消费习惯
关注关系在推荐系统中天然具有更高权重,因此单独提取做基础排序。
第三阶段:Phoenix — 模型精排
这是整个管线的核心环节,使用预测模型(推测为 Grok 推理模块)对每条候选内容进行精细打分。预测维度包括:
- 用户是否会点赞
- 用户是否会评论
- 用户是否会转发
- 用户是否会停留阅读(即单帖停留时长)
这些预测值最终合成一个综合得分。关键点在于:无论内容来自关注用户还是陌生用户,都会经过同一套精排模型打分,系统只关心"最可能产生互动"的内容。
第四阶段:Home Mixer — 混排与去重
最终阶段将不同来源的内容按比例混合——一部分来自关注流,一部分来自热门和兴趣推荐。这一阶段最关键的机制是去重:
系统会计算同一时间窗口内内容的相似度,过滤掉高度重复的帖子。即使你的内容质量很高,如果与已有内容高度相似,也很难进入 For You 推荐流。
对内容创作者的启示
这套算法揭示了一个重要规律:内容的独特性比完美度更重要。大量同质化的技术 Demo 展示、千篇一律的工具推荐,在精排模型眼中很难获得高分——因为缺乏真实互动反馈,评论区只有泛泛的夸赞,系统无法为账号建立清晰的标签和主题定位。
对于独立开发者而言,与其追逐热点发布雷同内容,不如围绕自己的产品和真实经验建立差异化的内容标签,让推荐系统能够精准定位你的受众。
此外,发帖频率和时间间隔可能受后台冷却时间(CD)机制控制,这部分尚待进一步研究验证。感兴趣的开发者可以直接阅读 GitHub 上的开源代码,深入理解各阶段的具体实现。