标签
关于在使用 GLM 5.2 模型时避免速率限制和降低成本的指南,涵盖提示批处理、缓存、免费模型替代方案、努力水平、上下文窗口管理和自托管。
本文详细介绍了 libffi 中的一项性能改进:将参数放置缓存为扁平移动列表(即“计划”),从而消除了每次函数调用时的冗余重新分类,在不使用 JIT 编译的情况下实现了显著的加速。
一个推测性的讨论,质疑为什么LLMs没有被训练使用优化的内部语言而非自然语言来思考,以及这是否能提高效率。
有关在LLM推理服务器Tokn中实现CUDA Graphs的详细教程,涵盖FastAPI服务器设置、引擎初始化以及用于优化解码阶段的CUDA Graph捕获。
一位开发者创建了一个统一的安装程序,将现有的如 OpenSpec、RTK 和 ccusage 等为 Copilot 和 Claude Code 节省 Token 的工具整合在一起,并带有命令行界面,可显示实际的 Token 消耗节省量。
介绍了RACL,一种推理智能体控制层,通过学习从操作内存控制内部搜索行为来改进元启发式优化,在车辆路径测试中显示出成本改善。
本文介绍ORAgentBench,一个用于评估LLM代理在端到端运筹学任务中表现的执行基准,包含107个经过人工审查的任务。实验表明,当前最佳代理仅通过35.51%的任务,揭示了在可靠决策制定方面的重大不足。
介绍进化程序性瓶颈(EPB),一种通过LLM驱动的进化将黑箱模型蒸馏为人类可读的程序组合以解读神经组合优化策略的框架。
本书草稿章节提供了一个信息图以及对现代C++ CPU的CPU时钟周期中操作成本的详细分析,涵盖乘法、除法和RTTI,并附有各种架构的延迟表。
本文提出了一种面向锂生产多目标决策的POMDP框架,处理地质、需求与定价不确定性,以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化,优于基于人类启发式的方法。
LMSYS Org 的一篇博客文章详细介绍了使用 SGLang-JAX 在 TPU v7x 上优化 Ling-2.6-1T(一个 1 万亿参数的混合 MoE 模型),通过单个 Pallas 内核将 MoE 数据移动隐藏在计算之后,从而实现高效的推理。
LlamaIndex改进了其用于Claude代理的LiteParse PDF解析技能,通过评估轨迹优化代理行为,使其成本降低37%,准确性更高。
解释了使用GCC的计算goto扩展来提升字节码虚拟机调度表性能的方法,并与传统的switch语句进行了对比,附带了一个简单示例。
提出了一种用于随机优化的动量-梯度对齐更新策略MGUP,可实现层内选择性参数更新。该策略能与AdamW、Lion和Muon等优化器无缝集成,在提供理论收敛保证的同时,在大型模型训练任务中展现出卓越性能。
本文利用基于Transformer的模型对MLB Statcast数据进行反事实优化,发现同时优化最终投球和准备投球可以使K/9等赛季级统计指标提高超过1.0。
本文重新思考了在大型语言模型的无评论家强化学习中分组的作用,并提出了负令牌过滤策略,使得每个提示只需一次rollout即可实现稳定训练,在推理和代理任务上取得了与基于分组的方法相当或更好的性能。
本文提出了一种针对韧性制造业供应链的技能约束模型预测控制方法,其中培训决策影响未来的认证产能。该控制器求解有限时域混合整数规划,并在合成场景上进行评估,结果表明当瓶颈可预测时预测控制有效,但并非普遍优越。
作者发现同时使用CUDA和Vulkan后端编译llama.cpp是可行的,解码速度提升了约10% tokens/秒。他们计划运行进一步基准测试来评估其优势。