标签:GPU
-
RankMixer 论文解读:把排序模型做成“GPU 友好”的统一骨干,如何把 MFU 从 4.5% 拉到 45%?
解读 RankMixer(arXiv:2507.15551v3):用语义分组的 Feature Tokenization + 参数无关的 Multi-head Token Mixing + Per-token FFN,并结合 ReLU Routing 与 Dense-training/Sparse-inference 的 Sparse-MoE,把工业排序模型推到 1B 参数且延迟基本不变。