标签
据《金融时报》报道,OpenAI提议将5%的股份交给美国政府,以换取减少监管审查。
文章批评了赋予AI智能体更多自主权、减少人类监管的趋势,认为这忽略了来之不易的软件工程实践(如代码审查和分阶段发布),导致静默失败和意外成本。
本文探讨了AI智能体如何不仅取代人类,还创造了一个涉及监督、异常处理和决策归属的新工作层。
该文章报道指出,由于美国政府监管日益加强,AI模型的公开发布预计将面临更长的审批时间,从而影响AI部署的速度。
文章认为,许多AI智能体框架中的“人在回路中”机制是表演性的,因为模型在获得批准后仍然会执行操作,削弱了有意义的人类控制。
本文提出了用于治理委托AI系统的最小充分监督原则(MSO),推导了自主分配和信任校准的数学解,并引入了如水填充分配和掩蔽病理等概念。
Chris Olah 认为前沿 AI 实验室的激励机制可能与“做正确的事”相冲突,因此需要接受严格的外部道德监督,这与 Dario Amodei 近期的叙事框架存在尖锐分歧。
Govee在其网站的宣传生活场景图中放置了一本书脊印有'White Supremacy'字样的书籍,被读者发现后经询问被移除,引发关于产品图片审核疏忽的讨论。
Palantir举办黑客周,为其被ICE和DHS使用的软件构建新的监督工具,允许组织监控用户行为并针对可疑行为设置警报。
本文介绍了行为线索推理(Behavior Cue Reasoning),这是一种训练大型语言模型在特定行为前输出特定标记序列的方法,从而使推理过程更具可监控性和可控性。研究表明,该方法允许外部监控器在不牺牲性能的情况下,通过裁剪浪费的推理标记和拦截不安全操作,提高安全监督水平和推理效率。