标签:序列建模
-
HSTU 论文解读:把推荐建模成“内容-动作”的生成式序列转导,如何扩到万亿参数?
解读 HSTU(arXiv:2402.17152v3):将推荐系统重述为序列转导任务并做生成式训练;提出 HSTU(pointwise aggregated attention + 相对时序偏置 + 门控无 FFN)与 Stochastic Length、M-FALCON 等工程算法,实现长序列、流式训练与大规模在线推理。
解读 HSTU(arXiv:2402.17152v3):将推荐系统重述为序列转导任务并做生成式训练;提出 HSTU(pointwise aggregated attention + 相对时序偏置 + 门控无 FFN)与 Stochastic Length、M-FALCON 等工程算法,实现长序列、流式训练与大规模在线推理。