research-paper

#research-paper

EnergyLens: 面向多GPU大语言模型推理优化的预测性能耗感知探索

arXiv cs.LG ↗ · 6小时前缓存

EnergyLens是一个端到端的框架，用于多GPU大语言模型推理的预测性能耗感知优化，在Llama3和Qwen3-MoE上验证，平均绝对百分比误差在9.25%至13.19%之间，并揭示了不同配置之间显著的能耗差异。

0 人收藏 0 人点赞

#research-paper

Moltbook 审核：通过多轮对话揭示隐藏意图

arXiv cs.AI ↗ · 昨天缓存

本文介绍 Bot-Mod，一个通过多轮对话和基于吉布斯采样的方法识别多智能体系统中恶意意图的审核框架，并展示来自Moltbook的数据集用于评估。

0 人收藏 0 人点赞

#research-paper

Context Is Not Control：面向LLM的源边界评估

Reddit r/LocalLLaMA ↗ · 昨天缓存

一篇介绍《Context Is Not Control》的论文，该基准评估LLM在处理受控文本中介证据时的源边界失效问题。附带开放权重模型和前沿API模型的复现包。

0 人收藏 0 人点赞

#research-paper

空间启动优于语义提示：一种提高 LLM 图表数据提取准确率的基于网格的方法

arXiv cs.AI ↗ · 3天前缓存

本文探讨了提高大语言模型（LLM）在图表数据提取中准确率的方法，研究发现，通过坐标网格进行的空间启动策略显著优于语义提示策略。

0 人收藏 0 人点赞

#research-paper

仅靠拟合是不够的：极低量化大语言模型中的平滑性

arXiv cs.CL ↗ · 3天前缓存

本文探讨了极低量化大语言模型中的平滑性退化问题，认为除了数值精度外，保持平滑性对于维持模型性能至关重要。

0 人收藏 0 人点赞

#research-paper

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL ↗ · 3天前缓存

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集，研究了标准基准是否低估了大语言模型（LLM）的性能。研究发现，在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性，并表明针对容易产生歧义的任务，采用模型辅助的重新评估能产生更可靠的基准。

0 人收藏 0 人点赞

#research-paper

迈向定制化的多模态角色扮演

arXiv cs.LG ↗ · 3天前缓存

本文介绍了 UniCharacter，这是一个用于定制化多模态角色扮演（CMRP）的两阶段训练框架，能够对人设、对话风格和视觉身份进行统一的定制。该研究提出了 RoleScape-20 数据集，并证明了该模型仅需极少数据即可实现连贯的跨模态生成。

0 人收藏 0 人点赞

#research-paper

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

arXiv cs.CL ↗ · 3天前缓存

This article introduces Magis-Bench, a benchmark for evaluating large language models on magistrate-level legal tasks such as judicial reasoning and sentence drafting, using data from Brazilian judicial exams.

0 人收藏 0 人点赞

#research-paper

@rwayne: 昨天 arXiv 上挂了一篇有意思的论文，把认知科学里「意识」的机制直接翻译成了长上下文工程。论文作者 Mo Yu / Jie Zhou 等 6 位研究员提出，认知科学有个老观点叫 global ignition，人意识到一件事时，分布…

X AI KOLs Timeline ↗ · 2026-05-08

研究者提出将认知科学中的"global ignition"意识机制应用于长上下文工程，提出MiA-Signature方法使用子模选择高层概念覆盖激活空间，应用于RAG和agentic系统后获得一致性能提升。

0 人收藏 0 人点赞

#research-paper

PRISM：用于顺序决策的感知与推理交织方法

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了 PRISM，这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架，旨在提升具身 AI 任务中的顺序决策能力。

0 人收藏 0 人点赞

#research-paper

当乐于助人变成阿谀奉承：大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效

arXiv cs.AI ↗ · 2026-05-08 缓存

本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效，并提出一个新的框架和分类法来分类和缓解这些行为。

0 人收藏 0 人点赞

#research-paper

保持专注：通过键正交投影实现激活转向

arXiv cs.CL ↗ · 2026-05-08 缓存

本文介绍了通过键正交投影进行转向（SKOP）方法，该方法通过防止注意力重路由来控制大语言模型（LLM）的行为，从而在保持转向效果的同时降低效用下降。

0 人收藏 0 人点赞

#research-paper

逻辑正则化验证器激发大语言模型的推理能力

arXiv cs.CL ↗ · 2026-05-08 缓存

介绍了 LoVer，一种使用逻辑规则（否定一致性、组内一致性和组间一致性）来在无标签数据下提升大语言模型推理能力的无监督验证器，在推理基准测试中达到了接近监督验证器的性能。

0 人收藏 0 人点赞

#research-paper

基于评分细则的在策略蒸馏

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

本文提出了 ROPD，一种基于评分细则的在策略蒸馏框架，相比传统的基于 logits 的方法，该框架在样本效率上表现更优。它通过使用结构化的语义评分细则而非教师 logits，实现了黑盒场景下的模型对齐。

0 人收藏 0 人点赞

#research-paper

CBRS：基于双语数据集与双层过滤的多平台社交流认知血液请求系统

arXiv cs.CL ↗ · 2026-04-21 缓存

孟加拉国工程技术大学的研究人员提出了CBRS，一个多平台框架，采用双层架构并利用包含1.1万条孟加拉语和英语双语解析血液请求消息的新数据集，对社交媒体中的血液捐赠请求进行过滤和解析。其LoRA微调的Llama-3.2-3B模型实现了99%的过滤准确率和92%的零样本解析准确率，在减少35倍令牌使用量的同时，优于GPT-4o-mini等其他大语言模型。

0 人收藏 0 人点赞

#research-paper

HalluSAE：利用稀疏自编码器检测大型语言模型中的幻觉

arXiv cs.CL ↗ · 2026-04-21 缓存

北京航空航天大学等机构的研究人员提出了HalluSAE，这是一个结合稀疏自编码器与相变理论的框架。该框架通过将生成过程建模为穿越势能地形的轨迹，来检测大型语言模型（LLM）中的幻觉，并精准定位发生事实性错误的关键过渡区域。

0 人收藏 0 人点赞

#research-paper

@omarsar0: 这篇论文很好地结合了 Skills 与 RAG 的优势。大多数 RAG 系统会在每次查询时都进行检索，无论模型是否需要……

X AI KOLs Following ↗ · 2026-04-20 缓存

该研究提出了 Skill-RAG，一种将 Skills 与检索增强生成（RAG）相结合的新方法，以解决传统 RAG 系统无论模型是否确实需要信息都会在每次查询时进行检索所带来的低效问题。

0 人收藏 0 人点赞

research-paper

提交意见反馈