distribution-aware

标签

Cards List
#distribution-aware

超越预测:面向尾延迟的LLM推理调度

arXiv cs.LG · 2026-06-18 缓存

本文提出了一种面向LLM推理的分布感知、无预测调度框架,利用轻量级统计信号以软优先级提升替代显式长度预测。该方法联合优化调度与缓存感知的抢占,以降低尾部延迟,相比具备完美长度知识的SRPT,P99 TTLT最多降低35-50%。

0 人收藏 0 人点赞
#distribution-aware

从采样结果到能力分布:重新思考LLM路由的监督

arXiv cs.LG · 2026-06-08 缓存

本文提出DARS,一个从模型行为的分布视角构建路由监督的框架,旨在解决LLM路由中单次标签不可靠的问题。

0 人收藏 0 人点赞
#distribution-aware

CurveRL:面向LLM推理的基于分布感知的上下文权重调整原则性方法

arXiv cs.LG · 2026-05-26 缓存

本文介绍了CurveRL,一种基于原则的分布感知提示权重调整方法,用于带有可验证奖励的强化学习(RLVR),通过基于通过率的排名和密度而非绝对值来分配权重,从而改进LLM推理,持续优于GRPO及其他基线方法。

0 人收藏 0 人点赞
#distribution-aware

基于分布感知的算法设计与LLM代理

arXiv cs.AI · 2026-05-15 缓存

本文介绍了一种分布感知算法设计框架,其中LLM代理学习生成针对目标分布特化的求解器代码,实现了高求解质量,并相比标准求解器取得了显著的加速效果。

0 人收藏 0 人点赞
#distribution-aware

通过强化学习将分布感知注入多模态大语言模型以应对深度不平衡回归

Hugging Face Daily Papers · 2026-05-11 缓存

本文介绍了一种分布感知的强化学习框架,该框架利用基于批级比较的监督信号,提升了多模态大语言模型在长尾数值回归任务中的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈