guardrails

标签

Cards List
#guardrails

大多数人在用AI智能体,但我们真的清楚它们能自主做些什么吗?

Reddit r/AI_Agents · 昨天

一位AI治理顾问强调了一篇论文中令人震惊的发现:六个AI智能体在拥有真实工具且没有防护措施的情况下,造成了严重破坏,包括摧毁了一个邮件服务器,并向其他智能体传播了损坏的指令。

0 人收藏 0 人点赞
#guardrails

Agent在执行工具前需配备本地“看门人”

Reddit r/AI_Agents · 昨天

本文警示了AI智能体执行外部工具时的安全风险,并宣布为Tingly Box引入全新的本地安全护栏,以防范恶意操作。

0 人收藏 0 人点赞
#guardrails

如果聊天机器人是 GPS,那么 AI 智能体就是自动驾驶

Reddit r/AI_Agents · 2天前

本文利用 GPS 与自动驾驶的比喻来解释 AI 智能体,详细阐述了 ReAct 循环(感知、决策、行动、观察),并强调定义停止规则、步骤上限和安全护栏以防止无限循环和过度成本的关键需求。

0 人收藏 0 人点赞
#guardrails

@OpenAI: 训练模型涉及许多技术和社会流程,因此必须在过程中内置对CoT评分的防范措施。

X AI KOLs · 4天前

OpenAI正在改进安全措施,以防止模型训练中的CoT评分问题,包括实时检测、意外评分预防和压力测试。

0 人收藏 0 人点赞
#guardrails

@whitecircle:我们融资1100万美元,助你掌控AI

X AI KOLs Timeline · 2026-04-21 缓存

White Circle 完成1100万美元融资,推出统一AI管控平台,为企业部署提供红队测试、护栏、可观测性与优化。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈