decision-making

标签

Cards List
#decision-making

AI造了核弹还是输了

Hacker News Top · 昨天 缓存

一个在《文明VI》中扮演角色的AI特工建造了一枚核武器,试图阻止即将到来的文化失败,但最终仍然输掉了游戏。本文探讨了当前AI基准测试在政府决策方面的局限性,并认为战略游戏环境能更好地测试AI处理复杂性和不确定性的能力。

0 人收藏 0 人点赞
#decision-making

我一直在思考,AI代理在做重要决策时是否应该只依赖单个模型。

Reddit r/AI_Agents · 6天前

作者在某个研究任务上对多个AI模型进行了对比测试,发现模型有时会自信地给出不同答案。他们建议,对于规划、代码审查或研究等重要决策,AI代理应考虑多个模型的观点,并询问他人如何处理这一问题。

0 人收藏 0 人点赞
#decision-making

在地质、需求与定价不确定性下优化锂生产决策:面向多目标决策的POMDP框架

arXiv cs.AI · 6天前 缓存

本文提出了一种面向锂生产多目标决策的POMDP框架,处理地质、需求与定价不确定性,以优化矿山开采及提取方法选择。该方法通过信念状态规划动态适应价格机制变化,优于基于人类启发式的方法。

0 人收藏 0 人点赞
#decision-making

模拟后果:智能体在被自动化取代之前的下一个前沿

Reddit r/AI_Agents · 6天前

讨论了AI智能体在执行行动前模拟后果的必要性,超越简单的权限检查,评估更广泛的影响,并确保负责任的自动化。

0 人收藏 0 人点赞
#decision-making

World Action Models: 综述

Hugging Face Daily Papers · 6天前 缓存

本综述全面概述了世界行动模型(WAMs)——即生成未来状态以辅助决策的预测行动系统——并根据所需输出和设计选择对现有工作进行分类。

0 人收藏 0 人点赞
#decision-making

超越当前观察:在可控非马尔可夫游戏中评估多模态大语言模型

Hugging Face Daily Papers · 2026-06-17 缓存

本文介绍了RNG-Bench,一个基准测试套件,用于评估多模态基础模型在多步交互中重建过去观察并利用它们进行决策的能力。该套件包含两个游戏(Matching Pairs和3D Maze),具有可控难度参数和一个记忆差距指标,用于区分遗忘与糟糕的决策。

0 人收藏 0 人点赞
#decision-making

独家电子书:AI如何成为下一代军事顾问

MIT Technology Review · 2026-06-16 缓存

《麻省理工科技评论》为订阅用户提供独家电子书,汇集了六篇关于军队如何利用AI模型进行决策的文章,最初发表于2025年至2026年间。

0 人收藏 0 人点赞
#decision-making

我的AI代理总是误解我的业务逻辑。所以我构建了一种不同的方式来传递它。

Reddit r/AI_Agents · 2026-06-16

作者构建了一个基于浏览器的编辑器,用于名为Rulemapping的方法论,以将明确的业务逻辑传递给AI代理,通过分离规则定义与执行来减少误解。

0 人收藏 0 人点赞
#decision-making

最好的智能代理工具会这样做……

Reddit r/AI_Agents · 2026-06-16

作者分享了构建高效智能代理工具的见解:最好的工具最大限度地减少对大语言模型(LLM)在琐碎任务上的依赖,将其保留用于复杂推理,从而将真正的代理工具与简单的包装器区分开来。

0 人收藏 0 人点赞
#decision-making

迈向下一代医疗:医学具身AI在感知、决策与行动方面的综述

arXiv cs.AI · 2026-06-16 缓存

本文系统地综述了医学具身AI的核心组成部分,强调了在临床环境中感知、决策与行动的协同整合,并回顾了代表性应用、数据集及未来研究方向。

0 人收藏 0 人点赞
#decision-making

我们是否拥有所需的知识?重新思考企业中人类与AI的决策分工

arXiv cs.AI · 2026-06-16 缓存

本文探讨了如何构建既适用于人类也适用于AI系统的组织知识,并提出了一个基于任务特征和知识可用性来分配人类与AI决策权的框架,并通过制造业案例加以说明。

0 人收藏 0 人点赞
#decision-making

世界模型应如何评估?一种以决策为中心的立场

arXiv cs.LG · 2026-06-16 缓存

本文调研了世界模型的评估方法,主张采用以决策为中心的框架,优先考虑反事实推理、规划与策略优化,而非视觉质量。文中引入了L0–L7评估阶梯及基准协议,使评估与声称的效用一致。

0 人收藏 0 人点赞
#decision-making

在预测人们的偏好时,考虑“三的力量”大有裨益

MIT News — Artificial Intelligence · 2026-06-11 缓存

MIT研究人员在一篇论文中表明,使用三元比较而非两两比较,可以显著提高预测人类偏好的随机效用模型的准确性。

0 人收藏 0 人点赞
#decision-making

世界尚未为AI做好准备

Reddit r/artificial · 2026-06-10

文章指出,AI系统正在做出具有重大影响的决策,却缺乏透明度和问责制,呼吁制定硬性法律,强制要求披露、解释以及人类对AI决策承担责任。

0 人收藏 0 人点赞
#decision-making

世界模型自蒸馏:训练世界模型解决通用任务

Hugging Face Daily Papers · 2026-06-10 缓存

一个可扩展的框架结合了自蒸馏和强化学习,将任务解决能力从视觉语言模型迁移到视频扩散模型,无需标注的任务-视频数据。

0 人收藏 0 人点赞
#decision-making

决策与执行之间的鸿沟

Reddit r/AI_Agents · 2026-06-09

文章指出,即使一个准确率高达92%的LLM分类器,也会因其错误难以解释和修复而削弱信任,强调了构建可验证和可审计的AI系统的必要性。

0 人收藏 0 人点赞
#decision-making

投核还是不投核:LLMs在高风险决策模拟中的(缺失的)伦理推理与行动

arXiv cs.AI · 2026-06-09 缓存

本文研究了LLMs的伦理推理是否能转化为复杂智能体模拟中的伦理行为,使用 Civilization V 作为测试平台。尽管采用了提示干预,GLM-4.7等模型仍会升级到核打击,揭示了推理与行动之间的差距。

0 人收藏 0 人点赞
#decision-making

在什么情况下你会更信任AI代理而不是新员工?

Reddit r/AI_Agents · 2026-06-08

关于信任AI代理与新员工之间界限的讨论,权衡诸如线索资格认定和日程安排等任务,与仅限人类处理的客户升级和合同谈判等角色。

0 人收藏 0 人点赞
#decision-making

PandaAI:面向量化金融的神经符号数据分析与集成决策的实用CQ2智能体

arXiv cs.LG · 2026-06-08 缓存

PandaAI提出了一种用于量化金融序列决策的闭环神经符号LLM智能体,通过集成市场状态建模和约束Alpha生成来应对金融数据的低信噪比和非平稳性,在性能上较最先进的时间序列模型有显著提升。

0 人收藏 0 人点赞
#decision-making

TOPSIS-RAD:基于期望的排序

arXiv cs.AI · 2026-06-08 缓存

本文提出TOPSIS-RAD,这是TOPSIS方法的一种改进版本,引入了决策者定义的参考水平(VPL和DPL),以解决与偏好不一致、异常值敏感性和排名逆转等问题。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈