标签
本文指出了在策略分类中假设理性主体的局限性,并提出了前景引导策略框架(Pro-SF),该框架融合了前景理论中的认知偏差,以建模行为真实的策略操控。
本文证明,波动性和随机性作为不确定性的两种来源,推动最优探索向相反方向变化:波动性增加探索,而随机性抑制探索。作者将Gittins指数框架扩展到高斯状态空间赌博机,并引入了CAUSE——一种闭式探索奖励,其性能优于标准策略。
这项研究表明,大语言模型会继承并放大临床笔记中污名化语言带来的偏见,导致患者管理趋于保守,且当前的缓解策略效果有限。
Deloitte倡导从基础GenAI转向“自主智能”,以实现复杂任务自动化并改进决策,从而推动业务增长。
本文探讨了在游戏(特别是棒球经理游戏)中使用不同AI模型作为不可预测对手的方法。作者测试了8个模型,发现它们表现出不同的决策模式,表明模型来源和训练会影响行为,从而实现多样化的AI个性,使游戏更具吸引力。
作者注意到,在不同会话中用同一个Claude Code运行相同任务,会产生不同的决策模式,导致难以选择可以安全上线的输出,并指出目前缺乏评估Agent决策档案的工具。
经过八个月的真实部署,PayWithLocus发现其自主AI系统最难的问题不是能力,而是自信:AI在新情况下自信地执行错误决策,突显了当前架构未能解决的元认知差距。
本文提出了一种注意力引导的决策框架,用于医院药剂师管理药品短缺,通过将药品动态分解为紧急子集和监控子集来对有限理性进行建模,并表明选择性注意力可以在不进行完整状态推理的情况下实现稳定的决策。
本文探讨了当AI代理提供错误建议时谁应该负责的问题,考虑了开发者、模型提供商、数据供应商、平台和用户的作用,并提出了构建可信代理生态系统的关键问题。
本文探讨了企业在决定自建定制AI模型与使用OpenAI或Anthropic等提供商的API之间的权衡,重点关注成本、数据隐私、性能和长期控制。
本文识别了逆强化学习(IRL)中观测缺失的问题,该问题可能导致专家行为看似次优,并提出了一种实用算法,用于量化使专家行为显得最优所需的最小扰动,并在合成任务、癌症治疗模拟和ICU数据上进行了验证。
介绍了以状态为中心的决策过程(SDP),这是一种运行时框架,使得语言代理能够从原始文本环境中构建由任务引发的状态空间、观测到状态的映射、认证的转移以及终止条件。在五个基准测试中实现了最先进的无训练结果。
本文介绍CLIPR,一个从最少的对话输入中学习可转移的潜在用户偏好的框架,以改进LLM中与人类一致的决策。
Mitchell Hashimoto 观察到,大多数技术决策者优先考虑职位安全而非创新,这导致他们倾向于采用安全且流行的解决方案(如 AI 上下文引擎),而不是构建具有防御性的技术。
文章认为,下一场重大AI辩论应聚焦于代表性和机构架构,提出三个层次(感知、核心、驱动)来应对AI系统如何捕获现实、推理及合法行动的问题,而非仅仅模拟智能。
作者质疑消费者级 AI 能否突破聊天机器人套壳的局限,并介绍了 Serno——一款利用对立 AI 模型评估争议性主张并强制输出裁决的新 Agent。作者希望征集反馈,探讨这是否能成为消费者级 AI 应用的一个可行赛道。
本文介绍了 ExpWeaver 框架,该框架优化了自我进化语言模型智能体在运行时决策过程中如何利用过往经验。研究表明,基于推理不确定性选择性调用经验,能在多种环境和模型中提升性能。
本文介绍了 MedExAgent,这是一个将临床诊断形式化为部分可观测马尔可夫决策过程(POMDP)以处理嘈杂和不完整信息的框架。该框架提出了一种结合监督微调与强化学习的两阶段训练流程,以提高医疗大语言模型的诊断准确性和成本效益。
MIT教授Gabriele Farina通过将博弈论与机器学习相结合,推动AI决策能力的发展,这建立在他早期参与开发外交AI Cicero的工作基础之上。