分类:论文解读
-
LEMUR 论文解读:工业级端到端多模态搜索推荐怎么做(Memory Bank + SQDC)
解读字节跳动 LEMUR(arXiv:2511.10962v2):把多模态 Transformer 与排序模型真正端到端联合训练;用 Session-masked Query-Doc Contrastive(SQDC)对齐表示;用 Memory Bank 让超长历史序列的多模态建模在工业成本下可训练、可部署,并给出显著离线/在线收益。
-
DeepSeek Engram 论文解读:用可扩展查表给 LLM 增加“条件记忆”稀疏轴
解读 Conditional Memory via Scalable Lookup(arXiv:2601.07372v1):提出 Engram,把经典 N-gram 表征升级成可扩展、可训练、可 CPU Offload 的 O(1) 查表记忆模块;用上下文门控与轻量卷积把静态记忆与动态隐状态融合;并给出 MoE 与 Engram 的稀疏预算分配规律(U 形 scaling law),在等激活参数/等 FLOPs 下显著提升知识、推理、代码/数学与长上下文检索。
-
GPR 论文解读:广告推荐的“生成式一体化”范式,如何用一个模型替代级联系统?
解读 GPR(arXiv:2511.10138v2):用统一的 U/O/E/I Token 输入与多级语义 ID(RQ-Kmeans+)把广告与内容对齐;用 HHD(HSD+PTD+HTE)做“理解→生成→估值”的层级解码;再用 MTP+VAFT+HEPO(含层级过程奖励与 PPO)完成从预训练到价值对齐与策略优化。
-
HSTU 论文解读:把推荐建模成“内容-动作”的生成式序列转导,如何扩到万亿参数?
解读 HSTU(arXiv:2402.17152v3):将推荐系统重述为序列转导任务并做生成式训练;提出 HSTU(pointwise aggregated attention + 相对时序偏置 + 门控无 FFN)与 Stochastic Length、M-FALCON 等工程算法,实现长序列、流式训练与大规模在线推理。
-
RankMixer 论文解读:把排序模型做成“GPU 友好”的统一骨干,如何把 MFU 从 4.5% 拉到 45%?
解读 RankMixer(arXiv:2507.15551v3):用语义分组的 Feature Tokenization + 参数无关的 Multi-head Token Mixing + Per-token FFN,并结合 ReLU Routing 与 Dense-training/Sparse-inference 的 Sparse-MoE,把工业排序模型推到 1B 参数且延迟基本不变。
-
MTGR 论文解读:美团工业级“生成式”推荐框架如何做到可扩展又不丢特征?
解读 MTGR(arXiv:2505.18654v4):用“按用户聚合候选 + Transformer(HSTU) 编码 + 动态 Mask + GLN”把 DLRM 的 cross feature 和 GRM 的可扩展性揉到一起,并给出离线/线上实验与训练系统工程细节。