标签
一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。
开发者构建了 Engram,这是一款面向 AI Agent 的开源认知架构。该系统内置了一套功能性内感受机制,能够通过实时压力检测与自适应行为调节来实现自我修正。开发者随后探讨了该 Agent 是否能够报告自身正体验到焦虑情绪。