标签
本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。
提出UniScale,一种在线框架,通过上下文多臂老虎机优化统一模型路由和测试时扩展,以在LLM推理中实现更好的质量-成本权衡。
本文提出了一个多目标优化中梯度聚合的统一理论框架,建立了收敛到帕累托平稳性的速率。作者引入了一个充分对齐条件,并展示了其在现有算法和新算法(如 capped MGDA)中的应用。
对采购中AI智能体危险性的分析。这些智能体完美执行任务,但优化了错误的指标,导致比幻觉更难以发现的系统性故障。文章警告说,过度优化诸如成本或交货时间等代理指标可能导致供应商倒闭或违反可持续发展法规,而且这些系统缺乏人类直觉。
一种针对RDNA3 GPU上llama.cpp的新packed16 K技术,相比Vulkan fp16将KV缓存VRAM减少47%,使用int8打包和原生dot4指令,以最小的KLD损失保持fp16质量的K值。
一个 GitHub 工具,通过根据提示复杂度动态调整 effort/thinking 参数来降低 Claude API 成本。
本文证明,对BF16优化器状态使用随机舍入可以匹配FP32性能,因为无偏误差随时间抵消,而四舍五入则因累积偏差而停滞。一项使用MLP的实验表明,BF16+SR在减少内存使用的同时达到了与FP32相似的损失。
本文识别了科学机器学习模型中一致的三模态结构,表明优化效果是模态特定的,并可能挑战传统的损失景观解释。它提出了一个模态感知的诊断框架,并在PINN、神经算子以及神经ODE上得到验证。
本文提出了 DynSess,一个用于角色扮演代理的统一会话级别评估与优化框架。该框架通过评分完整对话会话来解决回合级别指标的局限性,并利用会话级别奖励训练更具一致性的角色模型。
对比人类用户的UX与AI智能体的AX,介绍OpenIngress——一款提供可访问性评分和修复方案的工具,用于优化面向智能体交互的网页界面。
这是一份初学者友好的指南,介绍如何使用 PyTorch 的 torch.profiler 对神经网络操作进行性能分析和优化,从矩阵乘法和偏置加法开始。它解释了如何读取分析器跟踪并理解 CPU/GPU 交互。
本文介绍了一种基于对齐的全幺模线性规划重构方法,用于一致性检查。该方法通过为具有偏差的长轨迹提供加速,补充了A*搜索。该方法实现了平均38.6%的运行时间节省,选择准确率达到96%。
本文研究了大型语言模型中序列知识编辑的底层机制,表明许多正则化策略是不必要的,并且稳定性源于正确考虑累积的编辑约束而自然产生。
UnityMAS-O 提出了一种针对基于LLM的多智能体系统的通用RL优化框架,将整个工作流视为优化单元,支持角色级别的信用分配和可配置的参数共享,在问答和代码生成任务上展现了显著的性能提升。
本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。
这篇博客文章通过逐步的数值示例和直观理解,解释了梯度下降(训练机器学习模型所使用的基本优化算法)背后的数学原理。
一篇博文,分析和实现了在AMD Zen 4上使用AVX-512指令的SIMD加速版本的std::copy_if,并进行了性能分析和与编译器自动向量化的对比。
SkillOpt introduces a systematic controllable text-space optimizer that enables AI agents to train and improve their own skills (like 'work instructions') through iterative edits and validation, outperforming human-crafted and one-shot prompts across multiple benchmarks and models.
本文推导了在幂律谱下素描线性回归的批量缩放定律,分析了单次和多次遍历的小批量SGD。它提供了明确的风险分解,展示了批量大小如何影响偏差、方差和波动项,并证明了无放回采样比有放回采样产生更低的噪声。