reliability

标签

Cards List
#reliability

超越函数调用:在工具环境不可靠性下对工具使用代理进行基准测试

arXiv cs.CL · 1小时前 缓存

介绍ToolBench-X,这是一个基准测试,用于评估各种工具环境可靠性隐患下的大语言模型代理,揭示了与干净环境相比性能上的显著差距。

0 人收藏 0 人点赞
#reliability

基于LLM的科学同行评审:方法、基准与可靠性挑战

arXiv cs.CL · 1小时前 缓存

本综述从系统层面对基于LLM的科学同行评审进行了分析,涵盖方法、基准以及包括提示注入和数据投毒等稳健性风险在内的可靠性挑战。

0 人收藏 0 人点赞
#reliability

@GergelyOrosz: 再次,我无法在Spotify上发布新的播客节目。一个月内的第三次重大故障。我现在不得不问这个问题…

X AI KOLs Timeline · 12小时前 缓存

Gergely Orosz报告了Spotify播客发布在一个月内第三次重大故障,质疑是否归咎于AI部署,并指出没有状态页面。

0 人收藏 0 人点赞
#reliability

LLM时代:迷雾战争下大语言模型推理、外交与可靠性的战略1v1基准测试

arXiv cs.AI · 昨天 缓存

介绍Age of LLM,一个回合制1v1基准测试,LLM在带有战争迷雾和外交机制的网格上对战,评估推理、可靠性和战略规划能力。结果显示核速攻战术占主导,且可靠性与获胜之间存在弱关联。

0 人收藏 0 人点赞
#reliability

Gemini与AI幻觉

Reddit r/artificial · 昨天

讨论Google Gemini模型中的AI幻觉问题,突出大型语言模型在可靠性和准确性方面的挑战。

0 人收藏 0 人点赞
#reliability

我受够了AI代理在生产环境中静默失败,于是为它们构建了一个运行时控制层

Reddit r/AI_Agents · 2天前

作者构建了一个运行时控制层,以解决AI代理在生产环境中静默失败的问题。

0 人收藏 0 人点赞
#reliability

你的"自动化专家"给你造了个定时炸弹,一旦引爆他们就会消失得无影无踪。

Reddit r/AI_Agents · 5天前

对所谓专家构建的劣质自动化系统的批评——他们忽略错误处理、文档和治理,留给客户的是脆弱的工作流,一上线就崩溃。

0 人收藏 0 人点赞
#reliability

@xingyaow_: 人们一直在问为什么 OpenHands V1 走的是与 Claude Managed Agents 相反的方向。我终于找到了时…

X AI KOLs Following · 6天前 缓存

Xingyao Wang 的博客文章解释了为什么 OpenHands V1 选择了与 Claude Managed Agents 不同的架构,认为可靠性来自于实现细节而非拓扑结构。

0 人收藏 0 人点赞
#reliability

SAE干预不可靠:干预后受抑制行为的恢复

arXiv cs.LG · 2026-06-18 缓存

本文证明了对稀疏自编码器(SAE)特征的干预可能不可靠,因为受抑制的行为可以通过残差空间优化恢复,即使干预仍然有效。它揭示了语言模型中特征级控制与实际行为完整性之间的关键差距。

0 人收藏 0 人点赞
#reliability

你最强的模型可能不是最佳的工具调用者

Reddit r/AI_Agents · 2026-06-17

本文认为,工具调用的可靠性往往不与模型能力成正比;较小的模型在遵循模式和格式规范方面可能超越较大的模型,这表明原始能力并非选择工具调用模型的唯一因素。

0 人收藏 0 人点赞
#reliability

@RayFernando1337: 谈及快速且可靠的代理。启动时间快3倍。99.99% 零错误轮次(更高可靠性)

X AI KOLs Following · 2026-06-16 缓存

声称代理性能显著提升:启动时间快3倍,99.99% 零错误轮次。

0 人收藏 0 人点赞
#reliability

Probably 获得 900 万美元融资,构建更可靠的人工智能

TechCrunch AI · 2026-06-16 缓存

Probably 从 Andreessen Horowitz 获得 900 万美元种子轮融资,通过确定性验证器系统捕获 LLM 幻觉,构建更可靠的人工智能系统,使小型模型能够在本地硬件上运行。

0 人收藏 0 人点赞
#reliability

ToolMenuBench:对可靠高效LLM代理的工具菜单过滤策略进行基准测试

arXiv cs.AI · 2026-06-16 缓存

ToolMenuBench是一个用于评估多步骤LLM代理中工具菜单过滤策略的基准测试。它表明,与未过滤的暴露相比,因果最小工具过滤显著提高了任务成功率并减少了Token使用量。

0 人收藏 0 人点赞
#reliability

Metric Match:一种评估LLM裁判可靠性的子集选择方法

arXiv cs.AI · 2026-06-16 缓存

本文介绍了一种名为Metric Match的方法,通过选择样本子集进行人工标注,以更高效地估计LLM裁判的可靠性,将标注成本降低32.5%,并相对于随机选择实现了0.838的胜率。

0 人收藏 0 人点赞
#reliability

智能体检查点远未达到生产级弹性

Reddit r/AI_Agents · 2026-06-15

一篇博客文章指出,当前的智能体检查点不足以实现生产级弹性,指出了故障检测、自动重试和高可用性等缺口,并建议将智能体构建在高可用编排层之上。

0 人收藏 0 人点赞
#reliability

@populartourist: 在仓库上持续使用 Qwen3.6 27B NVFP4 后,很明显这个量化版本并不可靠,至少在编…

X AI KOLs Timeline · 2026-06-15 缓存

用户报告称 Qwen3.6 27B NVFP4 量化版本在编码方面不可靠,尽管吞吐量高但质量不稳定,并建议 Q4_K_M 可能更稳定。

0 人收藏 0 人点赞
#reliability

评判者更喜欢英语吗?评估LLM作为评判者的语言切换不变性

arXiv cs.CL · 2026-06-15 缓存

本文提出了Judge-LS,一种评估LLM-as-a-judge模型在英语和中文之间语言切换是否不变的协议。研究发现,语言切换会导致10.7%至14.4%的偏好翻转,且评判者在英语中达到最高准确率。

0 人收藏 0 人点赞
#reliability

@rohanpaul_ai: 德克萨斯大学论文显示AI智能体在部署后可能逐渐变得不那么可靠,即使模型本身并未变…

X AI KOLs Following · 2026-06-14 缓存

德克萨斯大学的一篇论文介绍了AgingBench,这是一个基准测试,揭示了AI智能体在部署后可能因记忆和维护衰减而变得不那么可靠,即使底层模型保持不变。

0 人收藏 0 人点赞
#reliability

公司们正在认识到,试图将非确定性数学强行引入零错误商业环境只会增加工作量,而非减少。

Reddit r/ArtificialInteligence · 2026-06-13

公司们意识到,将非确定性人工智能强行应用于零错误商业环境会适得其反,导致预算削减和试点项目失败,因为投资回报率始终难以实现。

0 人收藏 0 人点赞
#reliability

我的AI代理在同一QA任务上反复失败10多次。如何修复工作流?

Reddit r/AI_Agents · 2026-06-12

用户报告在使用AI代理(Hermes + Claude Code)对Web应用进行探索性QA时反复失败,原因包括数据库错误、缓存过时和基础设施调试。他们寻求关于创建可靠工作流的建议,包括预检查、清除缓存和限制代理范围。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈