标签
智能体指令协议(AIP)提出将 AI 智能体技能建模为带有 schema 验证 YAML 规范的有向执行图,以取代自由形式的文本指令。实验表明,AIP 编译将 Claude Sonnet 在 27 个真实智能体任务上的平均任务奖励从 0.60 提升至 0.71,通过率从 53% 提升至 67%。
本文提出了MONIR——一种模态输出规范性中间表示,旨在桥接LLM辅助的规范提取与基于ASP的合规推理,适用于技术标准领域。该框架以中国ADAS法规为实例,结合符号推理与LLM流水线,实现可解释的合规性检查。
本文认为,在多智能体 LLM 系统中,追求共识对于涉及价值判断的任务而言是不够的,并提出一种知识表示层,将智能体推理轨迹的分歧归类为四种符号状态,以实现内容审核等系统中的策略性路由。
本文介绍了一个原型框架,用于管理虚拟实验室规划中LLM生成的程序性知识的不确定性,通过使用结构化领域表示来修复不确定的程序步骤。
本文研究了大型语言模型在其生成时间分布中已有正确答案时仍产生幻觉的现象。通过引入答案可用性的语义概念,作者表明16-47%的指令调优模型幻觉发生在正确概念已经表示的情况下,并且这一比例随着模型规模增加而上升。他们指出,指令调优强化了答案承诺,使得有用性和自信幻觉成为同一枚硬币的两面。
DALM提出了一种领域代数语言模型,在由领域格导出的精确结构约束下生成文本,通过将知识组织到具有代数保证的独立领域纤维中来解决幻觉问题。该模型使用三阶段结构化去噪(领域→关系→概念),并使用领域标注的训练数据防止跨领域污染。