标签
本文引入了一个白盒诊断框架,将推理语言模型中的指令层级故障定位为识别、冲突解决和响应实现三个阶段。该框架评估了多个模型,并提出了两种无需训练的自我监控机制,可将违规率降低81%–99%。
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
一个基于LangChain构建的AI代理持续监控自己的代码库,标记缺失的监测器,并自动创建PR修复发现的漏洞,如Ramp公司的Alex Shevchenko所述。
一个包含524个项目的新型跨域基准(元认知监测电池)使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后,揭示了三种不同的元认知配置,并表明准确率排名与元认知敏感性排名基本相反。
开发者构建了 Engram,这是一款面向 AI Agent 的开源认知架构。该系统内置了一套功能性内感受机制,能够通过实时压力检测与自适应行为调节来实现自我修正。开发者随后探讨了该 Agent 是否能够报告自身正体验到焦虑情绪。