个人博客

HyFormer 论文解读：重新理解长序列建模与特征交互在 CTR 里的分工

解读 HyFormer（arXiv:2601.12681v2）：用全局查询 token 把长序列建模与异构特征交互统一到单一骨干；通过 Query Decoding/Query Boosting 交替优化实现双向信息流；并给出与 LONGER、RankMixer、MTGR/OneTrans 等方法的系统对比与实验结果。

论文解读

TWIN 论文解读：快手两阶段兴趣网络如何把长序列行为的“召回-注意力一致性”做到底

解读 TWIN（arXiv:2302.02352）：把 GSU 与 ESU 的相关性度量统一为同一套目标注意力；通过行为特征拆分、交叉特征压缩与缓存把 TA 从 10^2 扩展到 10^4-10^5；结合工程部署与实验结果说明它为何有效。

论文解读

OpenCode 入门与实战：开源 AI 编码代理的配置、工作流与最佳实践

基于 opencode.ai 官方文档整理：从安装、连接模型供应商、/init 生成 AGENTS.md，到权限控制、配置层级、扩展（命令/Agent/工具/MCP/插件）、分享与 IDE 集成，给出一份偏工程实践的中文科普与上手指南。

工具

GPR 论文解读：广告推荐的“生成式一体化”范式，如何用一个模型替代级联系统？

解读 GPR（arXiv:2511.10138v2）：用统一的 U/O/E/I Token 输入与多级语义 ID（RQ-Kmeans+）把广告与内容对齐；用 HHD（HSD+PTD+HTE）做“理解→生成→估值”的层级解码；再用 MTP+VAFT+HEPO（含层级过程奖励与 PPO）完成从预训练到价值对齐与策略优化。

论文解读

HSTU 论文解读：把推荐建模成“内容-动作”的生成式序列转导，如何扩到万亿参数？

解读 HSTU（arXiv:2402.17152v3）：将推荐系统重述为序列转导任务并做生成式训练；提出 HSTU（pointwise aggregated attention + 相对时序偏置 + 门控无 FFN）与 Stochastic Length、M-FALCON 等工程算法，实现长序列、流式训练与大规模在线推理。

论文解读

RankMixer 论文解读：把排序模型做成“GPU 友好”的统一骨干，如何把 MFU 从 4.5% 拉到 45%？

解读 RankMixer（arXiv:2507.15551v3）：用语义分组的 Feature Tokenization + 参数无关的 Multi-head Token Mixing + Per-token FFN，并结合 ReLU Routing 与 Dense-training/Sparse-inference 的 Sparse-MoE，把工业排序模型推到 1B 参数且延迟基本不变。

论文解读

MTGR 论文解读：美团工业级“生成式”推荐框架如何做到可扩展又不丢特征？

解读 MTGR（arXiv:2505.18654v4）：用“按用户聚合候选 + Transformer(HSTU) 编码 + 动态 Mask + GLN”把 DLRM 的 cross feature 和 GRM 的可扩展性揉到一起，并给出离线/线上实验与训练系统工程细节。

论文解读

个人博客

最新文章

HyFormer 论文解读：重新理解长序列建模与特征交互在 CTR 里的分工

TWIN 论文解读：快手两阶段兴趣网络如何把长序列行为的“召回-注意力一致性”做到底

OpenCode 入门与实战：开源 AI 编码代理的配置、工作流与最佳实践

GPR 论文解读：广告推荐的“生成式一体化”范式，如何用一个模型替代级联系统？

HSTU 论文解读：把推荐建模成“内容-动作”的生成式序列转导，如何扩到万亿参数？

RankMixer 论文解读：把排序模型做成“GPU 友好”的统一骨干，如何把 MFU 从 4.5% 拉到 45%？

MTGR 论文解读：美团工业级“生成式”推荐框架如何做到可扩展又不丢特征？