标签：MoE

DeepSeek Engram 论文解读：用可扩展查表给 LLM 增加“条件记忆”稀疏轴

2026/01/13

解读 Conditional Memory via Scalable Lookup（arXiv:2601.07372v1）：提出 Engram，把经典 N-gram 表征升级成可扩展、可训练、可 CPU Offload 的 O(1) 查表记忆模块；用上下文门控与轻量卷积把静态记忆与动态隐状态融合；并给出 MoE 与 Engram 的稀疏预算分配规律（U 形 scaling law），在等激活参数/等 FLOPs 下显著提升知识、推理、代码/数学与长上下文检索。
RankMixer 论文解读：把排序模型做成“GPU 友好”的统一骨干，如何把 MFU 从 4.5% 拉到 45%？

2026/01/13

解读 RankMixer（arXiv:2507.15551v3）：用语义分组的 Feature Tokenization + 参数无关的 Multi-head Token Mixing + Per-token FFN，并结合 ReLU Routing 与 Dense-training/Sparse-inference 的 Sparse-MoE，把工业排序模型推到 1B 参数且延迟基本不变。