标签
一位研究人员花了五天时间在多个AI系统上测试一个对齐假设,观察到反复出现的主题,例如不确定性的价值以及合作优于服从,发现思想通过对话和批评得以演化。
本文研究了共享工作空间中的人机团队协调,使用Collaborative Gym和DiscoveryBench任务,发现如果没有适当的结构,增加协作者可能会降低性能。通过共享组记忆和人在回路门控进行支撑,可以提升性能,尤其是在三人团队中。
Anthropic的最新经济研究分析了约40万次Claude Code会话,发现对于成功的代理编码,领域专业知识比编码技能更重要,并且任务价值在七个月内增加了约25%。
本文探讨了如何构建既适用于人类也适用于AI系统的组织知识,并提出了一个基于任务特征和知识可用性来分配人类与AI决策权的框架,并通过制造业案例加以说明。
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
Preply将OpenAI的API集成到其语言学习平台中,打造出Lesson Insights功能,该功能可根据课程转录自动生成个性化反馈和作业,提升导师与学习者的体验。
AI已经进步到能够为原创数学研究做出贡献的程度,超越了人类数学家,并可能减少对该职业的需求,尽管人类与AI的团队合作可能最终表现出色。
文章展望了2050年的未来:家家有AI助手、教育个性化、医疗先进、城市智慧,人机协作普及。
Mira Murati指出当前AI模型在思考时无法实时感知新信息,真正的协作需要时间型交互,持续接收并输出多模态信息。
在 Y Combinator 的“全栈”系列第一集中,Conductor 的 CEO Charlie Holtz 演示了他编码和管理 AI 代理的工作流程,讨论了 Claude 和 Codex 等工具,以及人机协作的未来。
本文介绍了"数字学徒"(Digital Apprentice)框架——一个可扩展且安全的智能体 AI 体系,其中自主权通过观察学习、人工授权和持续对齐校正的方式逐步获得。本文还介绍了 ADAPT,一种推理时控制平面,用于将渐进式自主权等级付诸实践,并将人工校正转化为可复用的偏好数据。
来自牛津、剑桥、MIT、CMU等机构的研究人员开展了一项混合方法研究,考察人们如何将AI工具融入数学证明形式化工作流程。研究发现,借助AI辅助时,参与者的形式化准确率普遍更高,同时他们倾向于在证明发现过程中保持人类对高层决策的主导权。
本文认为,使用AI代理比传统软件感觉更优越,因为它们让用户专注于高层次目标,而代理自主处理执行,将技术转变为数字协作者。
硅谷大佬Peter Thiel分享PayPal早期因欺诈濒临破产,通过人机协作(计算机筛选+人类定性调查)最终脱困的经历,指出这种协同范式被AI研究界低估。
作者分享了将AI Agent系统从沙盒迁移到生产环境的经验,强调了当Agent执行任务时,人类角色变得模糊,团队脱离参与,导致运营失败。
本文认为,尽管AI在模式识别和假设生成方面表现出色,但科学和经济的进步需要与现实世界的接地互动以及制度执行,强调了人机协作的必要性。
Cognition首席执行官Scott Wu表示,像Devin这样的人工智能编码代理旨在辅助而非取代人类程序员,强调人机协作而非失业问题。
本文研究了人在协作问答中如何决定何时委托AI以及何时采纳AI建议,发现确认偏误驱动了次优的信任决策,例如对正确AI输出的信赖不足。
来自Meta、斯坦福和谷歌的一篇新论文提出了AutoResearchClaw,该方法通过整合故障恢复、辩论和选择性人工输入来改进自动化研究。它在ARC-Bench上以54.7%的优势超越了AI Scientist v2,并揭示了当受到过程约束而非无限自由时,自主性会得到增强。