论文

本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统，该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型（LLM）接口，在提供结构化解释性发现的同时，保持了在资源受限环境下的离线能力。

0 人收藏 0 人点赞

SkillRet：面向 LLM 智能体技能检索的大规模基准

arXiv cs.AI ↗ · 昨天缓存

本文提出了 SkillRet，这是一个用于评估 LLM 智能体技能检索的大规模基准，旨在解决从大型技能库中选择相关技能的挑战。该基准提供了包含超过 17,000 项技能的 dataset，并证明针对特定任务的微调能显著提升检索性能。

0 人收藏 0 人点赞

像专家一样检测时间序列异常：一种具有专用分析器的多智能体 LLM 框架

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 SAGE，这是一种用于时间序列异常检测的多智能体 LLM 框架，它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能，并通过结构化证据整合增强了诊断报告的质量。

0 人收藏 0 人点赞

多并非总是更好：大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI ↗ · 昨天缓存

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设，通过系统实验证明，跨组件干扰往往会导致性能下降。研究发现，在各种模型规模下，更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

0 人收藏 0 人点赞

可解码但无法通过固定残差流线性转向纠正：来自医疗大语言模型失效模式的证据

arXiv cs.AI ↗ · 昨天缓存

本文研究了大语言模型隐藏状态中线性可解码的失效信号是否可以通过残差流转向进行纠正。研究发现，虽然“过度思考”失效模式是可解码的，但由于其与任务关键计算的表示纠缠，固定的线性转向未能纠正这些失效，尽管探测探针有效地支持了选择性拒绝回答。

0 人收藏 0 人点赞

隐藏、重建与越狱：利用多模态大语言模型中的重建-隐藏权衡

arXiv cs.AI ↗ · 昨天缓存

本文分析了针对多模态大语言模型（MLLMs）的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像，以更有效地利用模型漏洞。

0 人收藏 0 人点赞

通过随机因果表征学习解决个性化医疗中的偏差-精度悖论

arXiv cs.AI ↗ · 昨天缓存

本文提出了一种随机因果表征学习框架，以解决个性化医疗中的偏差-精度悖论，并证明了其在重症监护室（ICU）临床决策支持中提高了准确性和可解释性。

0 人收藏 0 人点赞

利用知识图谱路径作为自进化搜索代理的中间监督

arXiv cs.AI ↗ · 昨天缓存

本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上，并引入航点覆盖奖励（Waypoint Coverage Reward）以实现分级部分奖励，从而解决了搜索自博弈（Search Self-Play）中的瓶颈问题。

0 人收藏 0 人点赞

大语言模型搜索代理的推理时预算控制

arXiv cs.AI ↗ · 昨天缓存

本文提出了一种用于大语言模型（LLM）搜索代理的两阶段推理时预算控制方法，利用信息价值（VOI）分数在多跳问答过程中优化工具调用和 Token 分配。

0 人收藏 0 人点赞

面向大语言模型的显著性感知正则化量化校准

arXiv cs.AI ↗ · 昨天缓存

本文提出了显著性感知正则化量化校准（SARQC），这是一个统一的框架，通过添加正则化项以保持权重接近度，从而改善大语言模型（LLM）的训练后量化（PTQ），提升泛化能力和性能。

0 人收藏 0 人点赞

论文

提交意见反馈