标签
RealICU是一个事后标注的基准测试,用于评估ICU场景中的大型语言模型(LLM),涵盖四个由医生驱动的任务。实验表明,现有LLM在回忆-安全权衡和锚定偏差方面存在困难,而一种新的结构化记忆代理改善了推理能力,但未能完全消除安全故障。
Cryzo 是一款 AI CEO Agent,旨在通过单一聊天界面管理业务运营。它连接 CRM、广告平台和办公工具,提供可操作的洞察并自动执行任务。
本文介绍了 DiagnosticIQ,一个用于评估大语言模型将工业符号维护规则转化为可执行步骤能力的基准测试。研究指出,虽然前沿模型在标准任务上表现良好,但在结构扰动下会表现出脆弱性和模式匹配行为。