标签
SharQ提出了一种无需训练的方法,将激活稀疏性与FP4量化相结合用于大语言模型推理,采用稀疏-密集分解和统一的FP4权重负载。与仅使用FP4的基线相比,它显著降低了延迟并恢复了精度。
这项基准研究评估了46个大型语言模型与人类专家在编码定性人道主义数据方面的表现,发现通过结构化提示和推理,LLM可以达到与人类相当的可靠性,但对于细微主题仍需仔细监督。
KernelPro是一个闭环多智能体系统,利用LLM和微剖析工具自动优化GPU内核代码,在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速,并在相同速度下实测能耗降低11.6%。
CAT-Q 提出了一种面向LLM的训练后三值量化方法,该方法使用可学习调制和软化三值化技术,仅需512个校准样本即可实现优于BitNet 1.58-bit的性能,并可扩展到235B参数规模。
EGG 是一个专家引导的智能体框架,它将 GPU 内核生成分解为算法结构设计和硬件特定调优两个阶段,并采用阶段感知的多智能体协作机制。在 KernelBench 和实际工作负载上,EGG 相比 PyTorch 实现平均 2.13 倍的加速。
本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。
本文提出了一种自动形式化流水线,该流水线使用基于LLM的生成-批评循环,将智能体提示、MCP工具描述和自然语言策略文档转换为经过形式化验证的策略,在MedAgentBench上实现了比手工编码执行更好的覆盖度。
本文提出了一种新颖的方法论,整合了LLM、统计技术和人机协同,用于检测多语言服务反馈中的新兴主题,旨在提升公共部门组织的服务质量和公平性。
本文介绍了AdvCluster,一个自动化框架,用于识别和分类大型语言模型相对于小型模型在数学、物理、化学和编程基准测试中的推理优势。研究发现,大型模型在约束引导推理方面表现更佳——识别和组织约束以排除不可行路径并验证中间步骤。
EvoOptiGraph是一个框架,用于从自然语言自动进行优化建模,使用基于图的进化生成来创建多样化的训练数据,并通过弱点驱动的强化学习共同进化模型,在多个基准测试上取得了最先进的结果。
本文介绍了Know2Guess,一种污染感知的多区域基准,旨在评估大型语言模型从可回答知识到预期拒答的转换,解决数据污染、提示敏感性和拒绝行为问题。作者评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型,发现更强的模型表现出选择性但不完全的拒答。该基准和数据集已公开发布。
auto-psych 是一个基于智能体的系统,它利用LLM智能体生成假设、设计实验并分析来自众包参与者的数据,从而自动化计算认知科学中的理论发现与实验。该系统在经典的心理学范式中展示出比人类推导的理论更快、更优的理论生成能力。
本文回顾了当前多模态大语言模型评估基准,找出了关键差距,如时空连贯性、物理世界理解、多模态一致性和选择性注意力,并指出现有的孤立任务基准无法衡量真正的跨模态整合。
本文介绍了一个基于LLM的比较流水线,用于分析AI代理协议中的治理话语,并将其应用于ERC-8004和Google A2A,以考察制度设计如何塑造主题优先级和社区结构。
介绍了AlgoEvolve,一个LLM驱动的进化框架,用于生成并迭代改进算法交易策略。该框架包含一个元进化外层循环,用于进化提示词以指导内层循环的合成。
本文表明,在聊天模型中,拒绝行为由晚期层的合规模型人格方向门控,而非孤立的机制。操控人格可抑制拒绝,而重新引入拒绝仅在晚期层部分恢复拒绝,揭示了人格与安全表示之间的耦合。
NVIDIA 在 Hugging Face 上发布了优化版 GLM-5.2 MoE 模型,拥有 753B 参数和 1M 上下文,针对 Blackwell GPU 量化至 NVFP4,精度几乎与 FP8 持平。