reliability

标签

Cards List
#reliability

我们狠狠撞上了重试问题,干脆开源了一个解决方案

Reddit r/AI_Agents · 2026-06-11

Replaysafe 是一个开源的 npm 库,通过对操作进行指纹识别来确保幂等重试,防止 AI 智能体工作流中出现重复的副作用。它集成了 LangGraph、CrewAI 等流行框架。

0 人收藏 0 人点赞
#reliability

大多数AI代理失败并非因为模型不好。

Reddit r/AI_Agents · 2026-06-10

AI代理常常因环境混乱而失败,而非模型不好;提升环境稳定性能让简单的代理表现出色。

0 人收藏 0 人点赞
#reliability

决策与执行之间的鸿沟

Reddit r/AI_Agents · 2026-06-09

文章指出,即使一个准确率高达92%的LLM分类器,也会因其错误难以解释和修复而削弱信任,强调了构建可验证和可审计的AI系统的必要性。

0 人收藏 0 人点赞
#reliability

代理说“我发送了邮件。”但它从未调用send_email。你也有这种情况吗?

Reddit r/AI_Agents · 2026-06-09

讨论了一种常见的AI代理失败模式:模型自信地声称已执行了某个操作(例如发送邮件),但实际上并未调用所需的工具,并询问社区如何检测和处理这种生产环境中的静默失败。

0 人收藏 0 人点赞
#reliability

当没有正确答案时:诊断视频理解中多模态大语言模型的缺失答案检测

arXiv cs.AI · 2026-06-09 缓存

本文研究了多模态大语言模型(MLLMs)在视频理解任务中检测正确答案缺失的能力,发现模型系统性地失败,倾向于选择合理的干扰项而非识别出没有有效选项。该失败在时序推理和密集帧采样中更为严重,而思维链提示仅能部分缓解问题。

0 人收藏 0 人点赞
#reliability

安全是情境性的,LLM评判者则不然:驾驭评估者的刚性先验

arXiv cs.AI · 2026-06-09 缓存

本文研究了用于安全评估的LLM-as-judge适应情境信息及不同安全定义的能力,发现它们基本是刚性的,当情境与其内部先验相矛盾时无法调整。

0 人收藏 0 人点赞
#reliability

AI代理构建者:生产中什么最常出问题?

Reddit r/AI_Agents · 2026-06-08

一位研究人员向AI代理构建者询问生产中的常见故障,包括工具故障、代理循环、上下文丢失和调试实践。

0 人收藏 0 人点赞
#reliability

Datadog的AI报告改变了我对高级工程师的看法

Reddit r/AI_Agents · 2026-06-08

Datadog的AI报告强调,了解AI系统(包括多模型路由、可靠性问题、可观测性、上下文工程和复合工程)的高级工程师将拥有显著优势。

0 人收藏 0 人点赞
#reliability

τ-Rec:面向智能推荐系统的可验证基准

Hugging Face Daily Papers · 2026-06-08 缓存

τ-Rec是一个用于智能推荐系统的可验证基准,它用可验证奖励和控制对话约束取代了主观的LLM-as-a-judge评估,揭示了主流模型存在陡峭的可靠性悬崖——即便是表现最佳的模型,其pass@1也仅有约57%。

0 人收藏 0 人点赞
#reliability

企业内部AI采用速度远慢于线上AI采用

Reddit r/artificial · 2026-06-03

文章强调了线上AI采用看似迅速,与实际公司工作流中较为缓慢、谨慎的整合之间的脱节,其中信任、治理和可靠性是关键问题。

0 人收藏 0 人点赞
#reliability

Sotis:实时检测并干预代理崩溃(循环、编辑风暴),在您的 LangGraph/ReAct 循环内部

Reddit r/AI_Agents · 2026-06-03

Sotis 是一个 Python 库,通过熵检测和循环检测来发现并干预 LangGraph/ReAct 循环中的代理崩溃(循环、编辑风暴),回滚工作区并重启代理以干净地恢复。

0 人收藏 0 人点赞
#reliability

我们不再让AI代理提前规划三步,可靠性迅速提升

Reddit r/AI_Agents · 2026-06-02

一位实践者观察到,限制AI代理每次只规划一步而非多步,能显著提升涉及CRM和潜在客户资格认定的现实自动化工作流的可靠性,因为长期计划在外部状态变化时变得脆弱。

0 人收藏 0 人点赞
#reliability

停止构建多智能体系统

Reddit r/AI_Agents · 2026-06-02

一篇观点文章认为,向系统中添加更多智能体通常是解决可靠性问题的错误方法,而一个精心设计的、具有更好上下文、工具、护栏和评估的单一智能体通常更优。

0 人收藏 0 人点赞
#reliability

我们是否把太多工作流程称为“智能体”?

Reddit r/AI_Agents · 2026-06-02

作者质疑许多所谓的AI智能体是否更适合被称为工作流程,并认为对于可重复的浏览器任务,定义好的工作流程可能比每次重新解释步骤的智能体更可靠。

0 人收藏 0 人点赞
#reliability

能力不再是AI智能体的主要瓶颈

Reddit r/AI_Agents · 2026-06-01

作者认为,能力不再是AI智能体的主要瓶颈;相反,操作可靠性——例如从故障中干净恢复以及在长时间运行中保持上下文——成为了新的前沿。

0 人收藏 0 人点赞
#reliability

AI瓶颈已经转移,大多数人还没有跟上

Reddit r/singularity · 2026-06-01

AI瓶颈已经从能力转向信任和操作可靠性,因为工具现在将手动编排抽象为配置。作者观察到,构建代理比以往任何时候都更容易,但在生产环境中保持可靠性和信任仍然是更难的挑战。

0 人收藏 0 人点赞
#reliability

GitHub 与软件之罪

Lobsters Hottest · 2026-06-01 缓存

本文批评 GitHub 频繁宕机、可靠性差,并且优先发展AI功能而非基础架构,认为这反映了大型科技软件服务的普遍衰退。

0 人收藏 0 人点赞
#reliability

在真实浏览器任务中测试AI代理后,我认为炒作超前于基础设施

Reddit r/AI_Agents · 2026-06-01

作者在真实浏览器任务中测试了AI代理,发现由于基础设施限制,它们不可靠,主张为代理提供专用的浏览器运行时,而不是依赖当前为人类设计的浏览器。

0 人收藏 0 人点赞
#reliability

错误的架构:从普遍不可能性到局部补丁的LLM可靠性

arXiv cs.CL · 2026-06-01 缓存

本文论证了通用LLM可靠性是不可能的,但在操作上受限的补丁(如法律审查、医学RAG)内,失败是稀疏且重复的,使得可靠性成为一个局部目录发现问题。本文通过两个命题和一个推论将其形式化,重新定位而非消解长上下文生成的困难。

0 人收藏 0 人点赞
#reliability

深度研究Agent在何处出错?Agent轨迹中的跨度级错误定位

Hugging Face Daily Papers · 2026-06-01 缓存

本文介绍了一个以声明为中心的审计框架,用于识别深度研究Agent轨迹中的错误跨度,并提出了新基准TELBench,改进了过程级可靠性评估。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈