real-world

标签

Cards List
#real-world

有人想了解先进公司是如何在实际生产环境中运行AI代理的吗?

Reddit r/AI_Agents · 2026-05-26

作者在一家AI基础设施公司工作,观察到在实际生产环境中运行AI代理更多是关于环境、访问控制、隔离和安全状态管理,而非模型本身,并询问社区是否想要详细的架构模式。

0 人收藏 0 人点赞
#real-world

我为客户构建了50多个AI自动化方案,以下是大多数失败的原因以及成功案例做对了什么

Reddit r/AI_Agents · 2026-05-26

一位机构创始人分享了从50多个AI自动化实施中获得的经验教训,指出大多数失败的原因是底层流程混乱、缺乏内部所有权和过度工程化,而最成功的自动化方案简单、专注,并有指定的客户方负责人支持。

0 人收藏 0 人点赞
#real-world

Apex-Testing:真实世界、真实仓库的智能编码基准测试(更新)

Reddit r/LocalLLaMA · 2026-05-23

Apex-Testing 是一个用于评估智能编码模型的基准测试,基于真实的私有 GitHub 仓库。该测试已更新,加入了最新模型和详细指标,包括成本、时间以及基于 ELO 的排行榜。

0 人收藏 0 人点赞
#real-world

TerminalWorld:在真实终端任务中评估智能体的基准

Hugging Face Daily Papers · 2026-05-21 缓存

本文介绍了TerminalWorld,这是一个基于80,870个终端记录构建的、用于在真实终端任务中评估AI智能体的基准。当前系统最高仅达到62.5%的通过率,凸显了真实终端工作流中的挑战。

0 人收藏 0 人点赞
#real-world

有没有人也觉得AI代理在事情变得复杂之前都表现得很惊艳?

Reddit r/AI_Agents · 2026-05-20

对AI代理令人印象深刻的演示和可靠的实际执行之间差距的反思,认为当前代理擅长结构化任务但在不可预测条件下会失败,并指出近期AI角色将主要集中于带人类监督的窄范围自动化。

0 人收藏 0 人点赞
#real-world

AI agents初体验令人惊艳,但工作流一乱就麻烦不断

Reddit r/AI_Agents · 2026-05-19

对AI agents的反思:在狭窄的监督任务中令人印象深刻,但由于会话过期、上下文漂移和静默失败等问题,在长期运行、混乱的工作流程中显得脆弱且不可靠。

0 人收藏 0 人点赞
#real-world

@cyrilXBT: Anthropic 刚刚终结了演示代理时代。他们的 Agent 团队展示了生产级风范。不是理论……

X AI KOLs Timeline · 2026-05-19 缓存

Anthropic 的 Agent 团队在一次 30 分钟的演示中,揭晓了一套生产级的多代理系统四层框架,标志着从演示到真实应用的转变。

0 人收藏 0 人点赞
#real-world

Mega-ASR: 通过扩展真实世界声学模拟实现 In-the-wild^2 语音识别

Hugging Face Daily Papers · 2026-05-19 缓存

Mega-ASR 提出通过扩展真实世界声学模拟来改进在极具挑战性的野外条件下的自动语音识别,旨在缩小实验室与真实环境之间的性能差距。

0 人收藏 0 人点赞
#real-world

DetectRL-X:面向可靠的多语言及真实世界的LLM生成文本检测

arXiv cs.CL · 2026-05-18 缓存

DetectRL-X是一个全面的多语言基准测试,用于评估跨8种语言和6个领域的LLM生成文本检测器,包括针对AI辅助写作操作和扰动的压力测试。它揭示了当前检测器在多语言场景中的优势与局限性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈