PipeSD:基于推测解码的云边协同流水线推理框架 —— 阅读笔记
PipeSD(ICML 2026)阅读笔记:把云边协同推测解码重新建模为「草稿 / 网络 / 验证」三资源流水线问题,提出 O(N̂²) 动态规划的 token-batch 最优调度(额外开销 <0.013%),并配合 token-level + sequence-level 双阈值 NAV 触发器(Bayesian 优化约 16 次采样即可在线整定),在 ThinkBook 16+ ↔ 天翼云 A800 真实测试床上取得 1.16×–2.16× TPT 提速和 14.3%–25.3% ECS 能耗下降。