标签
本文提出一种面向代理型AI系统的组合式授权框架,引入了委托、范围衰减及递归权限链等原语,以治理自主AI代理。
本文针对大语言模型提出了能力自我评估(CSA)方法,并将其建模为策略学习问题。实验表明,强化学习能够有效教会模型识别自身局限并委托处理无法解决的查询,效果优于监督微调,且具有良好的分布外泛化能力。
本文研究了人在协作问答中如何决定何时委托AI以及何时采纳AI建议,发现确认偏误驱动了次优的信任决策,例如对正确AI输出的信赖不足。
一份全面的指南,教非编码人员如何使用Claude和Cowork构建AI代理,无需编写任何代码,解释核心组件并提供分步说明。
DecisionBench 提出了一个标准化基准,用于评估长周期多智能体工作流中的涌现式委托,提供了包含任务套件、同行模型和多维度指标的底层架构,以隔离编排能力。
作者反思了人工智能工具何时变得真正有用:当它们不再需要逐步指令,而是自主处理多步骤任务时,从被微观管理转变为被委派任务。
对AI代理设计中权衡的思考:代理因具备现实能力而变得有用的时刻,也正是它们变得危险的时刻,需要为授权的权限划定谨慎的边界。
正在研究一种新的智能体编排方法,其特点是委派方案和子智能体,可以在本地或Docker化的云环境中运行,并在它们之间进行消息传递。
<p>赋予 AI 代理花钱权限,同时掌控全局</p> <p><a href="https://www.producthunt.com/products/delegare?utm_campaign=producthunt-atom-posts-feed&utm_medium=rss-feed&utm_source=producthunt-atom-posts-feed">讨论</a> | <a href="https://www.producthunt.com/r/p/1127597?app_id=339">链接</a></p>
pi-subagents是一个工具,允许Pi将任务委托给专注的子代理,用于代码审查、实现和其他工作流程,支持并行和后台任务。