标签
本文通过证明增广生成模型的变分自由能(VFE)可以分解为预测模型的VFE加上显式熵修正项,对基于期望自由能(EFE)的规划给出了完整的变分刻画。作者推导了一种用于EFE规划的消息传递方案,并在网格世界环境中进行了验证。
密歇根大学的研究人员推出了MechSim——一个基于机制的神经符号推理框架,使LLM智能体能够对科学模拟器的内部假设、依赖关系和执行行为进行推理,而非将其视为黑盒。该框架在医疗、金融和公共政策等高风险领域提升了解释质量与决策可靠性。
作者认为,AI代理的真正危险不在于它们的错误,而在于它们能够自主执行最终操作的能力,建议代理应该提前一步停止,将最后的点击留给人类或狭窄的工作流程。
随着AI代理从提供答案转向在实际工作流程中采取行动——例如处理付款、客户数据和审批——其错误缺乏明确问责制成为了一个关键问题。
一位开发者重新思考智能体记忆,认为它不仅仅是存储,而是提出了一个带有角色和激活场的活图,用以赋予过去信息适当的权威和上下文。
本文研究了由LLM从XAI输出生成的高质量自然语言解释(NLEs)是否真的能改善任务性能,发现它们并未提高准确性,反而夸大了信心,揭示了质量-实用性差距。
提出了Reason-Imagine-Act (RIA),一种将大语言模型推理器与动作条件世界模型相结合的闭环框架,用于自动驾驶中的在线安全验证,在CARLA仿真中实现了80.05%的路线完成率和0.20%的碰撞率。
本书全面综述了不确定性下的图论,涵盖了模糊、中智和不确定图模型及其性质、扩展,以及在决策、图神经网络和知识图谱中的应用。
解释如何使用Claude执行事前验尸(premortem),这是丹尼尔·卡尼曼提出的一种技术,通过想象计划已经失败来对其进行压力测试。
本文认为,AI代理需要更好的判断力来决定何时避免行动,特别是在数据不完整或结果不可逆的情况下。同时,受控的自主性对公司来说更值得信赖。
本文系统阐述了调解模糊逻辑从类型-1基础到类型-2、类型-3和量子扩展的统一描述,确立了可靠性、次协调性和保守性,并给出了自动驾驶制动传感器融合的例子。
AI代理需要更好的停止规则,而不仅仅是推理能力,才能在实际工作流程中值得信赖——这些场景中,不完整的数据、不可逆的操作以及高风险都需要知道何时不应采取行动。
一个工具,让你创建目标对立的AI代理来模拟争论,适用于销售准备、创意压力测试和困难对话。可在本地运行,模拟模式下无需API密钥。
本文提出一个称为ECUAS_n的度量族,用于原则性评估输出预测和不确定性分数的不确定性增强系统。作者认为现有的评估方法不充分,并将这些度量构建为不确定性下决策的恰当评分规则。
本文重新审视了语言模型机器遗忘背景下的可靠性悖论,证明模型在依赖基于捷径的决策规则的同时能够实现较低的校准误差,从而将该悖论扩展至未学习模型。
讨论了AI代理在从多个信息来源推荐产品时面临的挑战,每个来源都有其自身的偏见和局限性,并质疑如何设计一个信任层以实现可靠推荐。