标签：Transformer

← 返回标签

HSTU 论文解读：把推荐建模成“内容-动作”的生成式序列转导，如何扩到万亿参数？

2026/01/13

解读 HSTU（arXiv:2402.17152v3）：将推荐系统重述为序列转导任务并做生成式训练；提出 HSTU（pointwise aggregated attention + 相对时序偏置 + 门控无 FFN）与 Stochastic Length、M-FALCON 等工程算法，实现长序列、流式训练与大规模在线推理。
MTGR 论文解读：美团工业级“生成式”推荐框架如何做到可扩展又不丢特征？

2026/01/12

解读 MTGR（arXiv:2505.18654v4）：用“按用户聚合候选 + Transformer(HSTU) 编码 + 动态 Mask + GLN”把 DLRM 的 cross feature 和 GRM 的可扩展性揉到一起，并给出离线/线上实验与训练系统工程细节。