标签
这篇博客文章详细介绍了对 LLVM 的 BumpPtrAllocator 进行的三项近期优化,通过移除冗余对齐、空指针检查以及每次分配的记账开销来减少快速路径开销,从而提升了 Clang、lld 及其他 LLVM 组件的性能。
本文介绍了Wasserstein空间中的凸差规划框架,用于优化概率测度上的非凸泛函,给出了最大均值差异(MMD)和能量距离(ED)的显式分解,并证明了提升的凸凹过程的收敛性。
本文介绍了COOPA,一种面向运筹学问题的模块化LLM智能体架构,它结合了基于迭代置信度的建模、元素级溯源和多求解器路由。在八个LLM主干网络和四个基线的评估中,COOPA在六个主干网络上取得了最佳的宏平均准确率,并在最强基线的基础上提升了最多6.7个百分点。
huff12是一个针对Apple Silicon处理器优化的12流Huffman解码器,旨在通过并行流处理来提高解码性能。
一套涵盖神经网络数学的讲义,从基本激活函数到群卷积和等变性等几何概念。
论文提出了一种名为 RiVER 的强化学习方法,该方法通过对程序在隐藏测试用例上进行排序并提供分级反馈,提升了大语言模型在没有已知标准答案的问题上的编码表现。
用户详细介绍了他们在 RTX PRO 6000 Blackwell 上使用 llama.cpp 运行 Qwen 27B 进行本地编码代理的设置,与 Claude 模型进行了性能对比,并请求帮助解决频繁崩溃和响应格式错误的问题。
本文推导了在高斯潜变量模型下的草图线性对比学习的缩放定律,分析了风险如何分解为近似项、优化项和统计项,并为对比学习中平衡模型规模、数据和计算提供了理论指导。
本文提出CASOP(上下文感知优化流水线合成与评估框架),用于仓库订单履约中优化流水线的上下文感知合成与评估,支持从模块化仓库中自动构建有效的算法流水线。
本文为PL平滑目标在马尔可夫噪声下的随机梯度下降提供了最优高概率界,填补了期望保证与高概率保证之间的差距,并扩展到重尾设置,给出了匹配的下界。
本文提出了一种用于协调电动公交车队运营的智能体聚合框架,将基于优化的调度与监督型AI智能体相结合,以处理干扰、电价适应和价值分配,揭示了运营效率与利润导向定价之间的权衡。
BunnyxStudio 花费3周时间移除了SwiftData,使得Hive应用启动速度显著提升,66000张图片的资料库几乎无需等待即可使用。
LFM2.5 230M 模型使用自定义 WebGPU 内核在浏览器中实现每秒 1,400 个 token,展示了高效的本地推理。
本文讨论了LLM代码风格选择如何影响Token消耗和成本,并提供了优化建议,如使用Web API标准和更简单的缩进以减少输出Token。
本文提出了Agentic-LTPO,一种嵌套式双层优化框架,利用代理型AI在动态运营商策略下自适应物理层配置,在无小区MIMO波束赋形中实现了57.2%的长期性能提升。
本文重新审视了在 Linux 上创建极小 ELF 可执行文件的技术,探讨如何通过滥用头部字段和重叠结构将大小缩减至 45 字节,同时保持与 ELF 规范的兼容性。