标签:稀疏模型

← 返回标签

  • DeepSeek Engram 论文解读:用可扩展查表给 LLM 增加“条件记忆”稀疏轴

    解读 Conditional Memory via Scalable Lookup(arXiv:2601.07372v1):提出 Engram,把经典 N-gram 表征升级成可扩展、可训练、可 CPU Offload 的 O(1) 查表记忆模块;用上下文门控与轻量卷积把静态记忆与动态隐状态融合;并给出 MoE 与 Engram 的稀疏预算分配规律(U 形 scaling law),在等激活参数/等 FLOPs 下显著提升知识、推理、代码/数学与长上下文检索。