llm

#llm

SharQ：连接激活稀疏性与FP4量化以优化大语言模型推理

arXiv cs.LG ↗ · 2天前缓存

SharQ提出了一种无需训练的方法，将激活稀疏性与FP4量化相结合用于大语言模型推理，采用稀疏-密集分解和统一的FP4权重负载。与仅使用FP4的基线相比，它显著降低了延迟并恢复了精度。

0 人收藏 0 人点赞

#llm

大型语言模型能否可靠地编码定性人道主义数据？一项与人类专家裁决对比的基准研究

arXiv cs.LG ↗ · 2天前缓存

这项基准研究评估了46个大型语言模型与人类专家在编码定性人道主义数据方面的表现，发现通过结构化提示和推理，LLM可以达到与人类相当的可靠性，但对于细微主题仍需仔细监督。

0 人收藏 0 人点赞

#llm

像人类一样优化CUDA：微剖析工具作为基于LLM的GPU内核优化的专家替代

arXiv cs.LG ↗ · 2天前缓存

KernelPro是一个闭环多智能体系统，利用LLM和微剖析工具自动优化GPU内核代码，在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速，并在相同速度下实测能耗降低11.6%。

0 人收藏 0 人点赞

#llm

CAT-Q: 用于LLM的高效且准确的三值量化

arXiv cs.CL ↗ · 2天前缓存

CAT-Q 提出了一种面向LLM的训练后三值量化方法，该方法使用可学习调制和软化三值化技术，仅需512个校准样本即可实现优于BitNet 1.58-bit的性能，并可扩展到235B参数规模。

0 人收藏 0 人点赞

#llm

EGG：专家引导的内核生成智能体框架

arXiv cs.AI ↗ · 2天前缓存

EGG 是一个专家引导的智能体框架，它将 GPU 内核生成分解为算法结构设计和硬件特定调优两个阶段，并采用阶段感知的多智能体协作机制。在 KernelBench 和实际工作负载上，EGG 相比 PyTorch 实现平均 2.13 倍的加速。

0 人收藏 0 人点赞

#llm

跨语言推理的软令牌对齐

arXiv cs.CL ↗ · 2天前缓存

提出SOLAR，一种辅助微调目标，通过跨语言对齐软令牌表示来提高多语言推理一致性，准确率提升高达+17.7个百分点。

0 人收藏 0 人点赞

#llm

NebulaExp-8B：基于全尺度消融研究的经验性后训练流水线

arXiv cs.AI ↗ · 2天前缓存

本文介绍了NebulaExp，一种针对8B规模大语言模型的透明消融驱动后训练流水线，涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡，并表明数据正确性过滤是一阶优化因素。

0 人收藏 0 人点赞

#llm

将智能体指令自动形式化为 Policy-as-Code

arXiv cs.AI ↗ · 2天前缓存

本文提出了一种自动形式化流水线，该流水线使用基于LLM的生成-批评循环，将智能体提示、MCP工具描述和自然语言策略文档转换为经过形式化验证的策略，在MedAgentBench上实现了比手工编码执行更好的覆盖度。

0 人收藏 0 人点赞

#llm

基于LLM的服务反馈新兴主题检测模型

arXiv cs.AI ↗ · 2天前缓存

本文提出了一种新颖的方法论，整合了LLM、统计技术和人机协同，用于检测多语言服务反馈中的新兴主题，旨在提升公共部门组织的服务质量和公平性。

0 人收藏 0 人点赞

#llm

基于内容的大型语言模型智能邮件调度系统

arXiv cs.AI ↗ · 2天前缓存

本文提出一种基于LLM的系统，自动将邮件分发到学生的WhatsApp群组，减少组织中的手动工作量和错误。

0 人收藏 0 人点赞

#llm

大型模型优势所在：约束引导推理的首要地位

arXiv cs.CL ↗ · 2天前缓存

本文介绍了AdvCluster，一个自动化框架，用于识别和分类大型语言模型相对于小型模型在数学、物理、化学和编程基准测试中的推理优势。研究发现，大型模型在约束引导推理方面表现更佳——识别和组织约束以排除不可行路径并验证中间步骤。

0 人收藏 0 人点赞

#llm

EvoOptiGraph：基于图结构生成的弱点驱动共同进化方法用于优化建模

arXiv cs.AI ↗ · 2天前缓存

EvoOptiGraph是一个框架，用于从自然语言自动进行优化建模，使用基于图的进化生成来创建多样化的训练数据，并通过弱点驱动的强化学习共同进化模型，在多个基准测试上取得了最先进的结果。

0 人收藏 0 人点赞

#llm

Know2Guess：一种面向大型语言模型知识边界评估的污染感知多区域基准

arXiv cs.CL ↗ · 2天前缓存

本文介绍了Know2Guess，一种污染感知的多区域基准，旨在评估大型语言模型从可回答知识到预期拒答的转换，解决数据污染、提示敏感性和拒绝行为问题。作者评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型，发现更强的模型表现出选择性但不完全的拒答。该基准和数据集已公开发布。

0 人收藏 0 人点赞

#llm