llm

标签

Cards List
#llm

SharQ:连接激活稀疏性与FP4量化以优化大语言模型推理

arXiv cs.LG · 2天前 缓存

SharQ提出了一种无需训练的方法,将激活稀疏性与FP4量化相结合用于大语言模型推理,采用稀疏-密集分解和统一的FP4权重负载。与仅使用FP4的基线相比,它显著降低了延迟并恢复了精度。

0 人收藏 0 人点赞
#llm

大型语言模型能否可靠地编码定性人道主义数据?一项与人类专家裁决对比的基准研究

arXiv cs.LG · 2天前 缓存

这项基准研究评估了46个大型语言模型与人类专家在编码定性人道主义数据方面的表现,发现通过结构化提示和推理,LLM可以达到与人类相当的可靠性,但对于细微主题仍需仔细监督。

0 人收藏 0 人点赞
#llm

像人类一样优化CUDA:微剖析工具作为基于LLM的GPU内核优化的专家替代

arXiv cs.LG · 2天前 缓存

KernelPro是一个闭环多智能体系统,利用LLM和微剖析工具自动优化GPU内核代码,在KernelBench上实现了2.42×/4.69×/5.30×的几何平均加速,并在相同速度下实测能耗降低11.6%。

0 人收藏 0 人点赞
#llm

CAT-Q: 用于LLM的高效且准确的三值量化

arXiv cs.CL · 2天前 缓存

CAT-Q 提出了一种面向LLM的训练后三值量化方法,该方法使用可学习调制和软化三值化技术,仅需512个校准样本即可实现优于BitNet 1.58-bit的性能,并可扩展到235B参数规模。

0 人收藏 0 人点赞
#llm

EGG:专家引导的内核生成智能体框架

arXiv cs.AI · 2天前 缓存

EGG 是一个专家引导的智能体框架,它将 GPU 内核生成分解为算法结构设计和硬件特定调优两个阶段,并采用阶段感知的多智能体协作机制。在 KernelBench 和实际工作负载上,EGG 相比 PyTorch 实现平均 2.13 倍的加速。

0 人收藏 0 人点赞
#llm

跨语言推理的软令牌对齐

arXiv cs.CL · 2天前 缓存

提出SOLAR,一种辅助微调目标,通过跨语言对齐软令牌表示来提高多语言推理一致性,准确率提升高达+17.7个百分点。

0 人收藏 0 人点赞
#llm

NebulaExp-8B:基于全尺度消融研究的经验性后训练流水线

arXiv cs.AI · 2天前 缓存

本文介绍了NebulaExp,一种针对8B规模大语言模型的透明消融驱动后训练流水线,涵盖SFT、GRPO强化学习和多教师蒸馏。它识别了数学推理与代码生成之间的关键权衡,并表明数据正确性过滤是一阶优化因素。

0 人收藏 0 人点赞
#llm

将智能体指令自动形式化为 Policy-as-Code

arXiv cs.AI · 2天前 缓存

本文提出了一种自动形式化流水线,该流水线使用基于LLM的生成-批评循环,将智能体提示、MCP工具描述和自然语言策略文档转换为经过形式化验证的策略,在MedAgentBench上实现了比手工编码执行更好的覆盖度。

0 人收藏 0 人点赞
#llm

基于LLM的服务反馈新兴主题检测模型

arXiv cs.AI · 2天前 缓存

本文提出了一种新颖的方法论,整合了LLM、统计技术和人机协同,用于检测多语言服务反馈中的新兴主题,旨在提升公共部门组织的服务质量和公平性。

0 人收藏 0 人点赞
#llm

基于内容的大型语言模型智能邮件调度系统

arXiv cs.AI · 2天前 缓存

本文提出一种基于LLM的系统,自动将邮件分发到学生的WhatsApp群组,减少组织中的手动工作量和错误。

0 人收藏 0 人点赞
#llm

大型模型优势所在:约束引导推理的首要地位

arXiv cs.CL · 2天前 缓存

本文介绍了AdvCluster,一个自动化框架,用于识别和分类大型语言模型相对于小型模型在数学、物理、化学和编程基准测试中的推理优势。研究发现,大型模型在约束引导推理方面表现更佳——识别和组织约束以排除不可行路径并验证中间步骤。

0 人收藏 0 人点赞
#llm

EvoOptiGraph:基于图结构生成的弱点驱动共同进化方法用于优化建模

arXiv cs.AI · 2天前 缓存

EvoOptiGraph是一个框架,用于从自然语言自动进行优化建模,使用基于图的进化生成来创建多样化的训练数据,并通过弱点驱动的强化学习共同进化模型,在多个基准测试上取得了最先进的结果。

0 人收藏 0 人点赞
#llm

Know2Guess:一种面向大型语言模型知识边界评估的污染感知多区域基准

arXiv cs.CL · 2天前 缓存

本文介绍了Know2Guess,一种污染感知的多区域基准,旨在评估大型语言模型从可回答知识到预期拒答的转换,解决数据污染、提示敏感性和拒绝行为问题。作者评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型,发现更强的模型表现出选择性但不完全的拒答。该基准和数据集已公开发布。

0 人收藏 0 人点赞
#llm

auto-psych: 利用智能体驱动的理论发现与实验自动化心智科学

arXiv cs.AI · 2天前 缓存

auto-psych 是一个基于智能体的系统,它利用LLM智能体生成假设、设计实验并分析来自众包参与者的数据,从而自动化计算认知科学中的理论发现与实验。该系统在经典的心理学范式中展示出比人类推导的理论更快、更优的理论生成能力。

0 人收藏 0 人点赞
#llm

多模态大语言模型评估中我们缺失了什么?

arXiv cs.AI · 2天前 缓存

本文回顾了当前多模态大语言模型评估基准,找出了关键差距,如时空连贯性、物理世界理解、多模态一致性和选择性注意力,并指出现有的孤立任务基准无法衡量真正的跨模态整合。

0 人收藏 0 人点赞
#llm

面向代理基础设施的代理分析:基于LLM的DAO与企业AI协议比较治理流水线

arXiv cs.AI · 2天前 缓存

本文介绍了一个基于LLM的比较流水线,用于分析AI代理协议中的治理话语,并将其应用于ERC-8004和Google A2A,以考察制度设计如何塑造主题优先级和社区结构。

0 人收藏 0 人点赞
#llm

AlgoEvolve: LLM驱动的算法交易程序元进化

arXiv cs.AI · 2天前 缓存

介绍了AlgoEvolve,一个LLM驱动的进化框架,用于生成并迭代改进算法交易策略。该框架包含一个元进化外层循环,用于进化提示词以指导内层循环的合成。

0 人收藏 0 人点赞
#llm

聊天模型中拒绝行为位于人格下游

arXiv cs.AI · 2天前 缓存

本文表明,在聊天模型中,拒绝行为由晚期层的合规模型人格方向门控,而非孤立的机制。操控人格可抑制拒绝,而重新引入拒绝仅在晚期层部分恢复拒绝,揭示了人格与安全表示之间的耦合。

0 人收藏 0 人点赞
#llm

@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了优化版的 GLM-5.2,这是一个拥有 753B 参数和 1M 上下文的 MoE 模型,针对 Blackwell GPU 量化至 NVFP4……

X AI KOLs Following · 2天前 缓存

NVIDIA 在 Hugging Face 上发布了优化版 GLM-5.2 MoE 模型,拥有 753B 参数和 1M 上下文,针对 Blackwell GPU 量化至 NVFP4,精度几乎与 FP8 持平。

0 人收藏 0 人点赞
#llm

向大语言模型发送PII数据

Reddit r/AI_Agents · 2天前

讨论向大语言模型发送个人身份信息(PII)的风险和注意事项。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈