decision-support

#decision-support

RealICU：大型语言模型代理是否能理解长上下文ICU数据？一个超越行为模仿的基准测试

arXiv cs.AI ↗ · 8小时前缓存

RealICU是一个事后标注的基准测试，用于评估ICU场景中的大型语言模型（LLM），涵盖四个由医生驱动的任务。实验表明，现有LLM在回忆-安全权衡和锚定偏差方面存在困难，而一种新的结构化记忆代理改善了推理能力，但未能完全消除安全故障。

0 人收藏 0 人点赞

#decision-support

Reddit r/AI_Agents ↗ · 昨天

Cryzo 是一款 AI CEO Agent，旨在通过单一聊天界面管理业务运营。它连接 CRM、广告平台和办公工具，提供可操作的洞察并自动执行任务。

0 人收藏 0 人点赞

#decision-support

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 DiagnosticIQ，一个用于评估大语言模型将工业符号维护规则转化为可执行步骤能力的基准测试。研究指出，虽然前沿模型在标准任务上表现良好，但在结构扰动下会表现出脆弱性和模式匹配行为。

0 人收藏 0 人点赞