policy-compliance

标签

Cards List
#policy-compliance

无害原则?网络部署的医疗大语言模型中的幻觉与行为体层级滥用

arXiv cs.CL · 2026-05-21 缓存

本文对医疗大语言模型(包括定制MedGPT和开源模型)进行了大规模评估,发现其中25-30%的模型事实准确性较低,33.6-54.3%的模型违反操作阈值,揭示了系统性的安全风险。

0 人收藏 0 人点赞
#policy-compliance

PolicyBank:为LLM智能体演进策略理解

arXiv cs.CL · 2026-04-20 缓存

PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈