标签
论文提出了一种名为 RiVER 的强化学习方法,该方法通过对程序在隐藏测试用例上进行排序并提供分级反馈,提升了大语言模型在没有已知标准答案的问题上的编码表现。
用户详细介绍了他们在 RTX PRO 6000 Blackwell 上使用 llama.cpp 运行 Qwen 27B 进行本地编码代理的设置,与 Claude 模型进行了性能对比,并请求帮助解决频繁崩溃和响应格式错误的问题。
本文推导了在高斯潜变量模型下的草图线性对比学习的缩放定律,分析了风险如何分解为近似项、优化项和统计项,并为对比学习中平衡模型规模、数据和计算提供了理论指导。
本文提出CASOP(上下文感知优化流水线合成与评估框架),用于仓库订单履约中优化流水线的上下文感知合成与评估,支持从模块化仓库中自动构建有效的算法流水线。
本文为PL平滑目标在马尔可夫噪声下的随机梯度下降提供了最优高概率界,填补了期望保证与高概率保证之间的差距,并扩展到重尾设置,给出了匹配的下界。
本文提出了一种用于协调电动公交车队运营的智能体聚合框架,将基于优化的调度与监督型AI智能体相结合,以处理干扰、电价适应和价值分配,揭示了运营效率与利润导向定价之间的权衡。
BunnyxStudio 花费3周时间移除了SwiftData,使得Hive应用启动速度显著提升,66000张图片的资料库几乎无需等待即可使用。
LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。
本文讨论了LLM代码风格选择如何影响Token消耗和成本,并提供了优化建议,如使用Web API标准和更简单的缩进以减少输出Token。
本文提出了Agentic-LTPO,一种嵌套式双层优化框架,利用代理型AI在动态运营商策略下自适应物理层配置,在无小区MIMO波束赋形中实现了57.2%的长期性能提升。
本文重新审视了在 Linux 上创建极小 ELF 可执行文件的技术,探讨如何通过滥用头部字段和重叠结构将大小缩减至 45 字节,同时保持与 ELF 规范的兼容性。
关于在单台DGX Spark上使用sglang推理和自定义mega-kernel以11 tok/s运行未量化的DeepSeek-v4-Flash模型的更新,正在向GLM-5.2迈进。
HALO是一款开源桌面应用,它利用基于模型的强化学习(RLM)技术来本地调试和优化AI代理追踪,并提供分析和可行建议。
作者测量了AI编程助手中的token浪费情况,发现42%可以避免,随后开发了一个工具来捕捉这种情况。该工具支持Claude Code、Cursor和Codex。
文章描述了 libdeflate 新的级别13,这是一种故意减慢的 DEFLATE 压缩级别,在 Silesia 数据集上仅能实现微不足道的压缩提升(0.134%),但代价是比级别12慢56倍,专为数据压缩一次、解压多次的场景设计。
本文解释了作者如何通过在keyDown时预取建议和缓存,实现了在2.4亿个域名上自动补全的p99零毫秒感知延迟,并基于Tranco和CZDS数据构建了快速API。
Vercel团队显著优化了其首页性能,使用了诸如WebGPU着色器等技术,并仔细检查每一帧,他们计划分享所学的经验。