self-monitoring

#self-monitoring

指令层级失效之处：诊断与修复推理语言模型中的故障

arXiv cs.AI ↗ · 2026-06-09 缓存

本文引入了一个白盒诊断框架，将推理语言模型中的指令层级故障定位为识别、冲突解决和响应实现三个阶段。该框架评估了多个模型，并提出了两种无需训练的自我监控机制，可将违规率降低81%–99%。

0 人收藏 0 人点赞

#self-monitoring

arXiv cs.LG ↗ · 2026-05-15 缓存

本文提出一种元认知框架，将LLMs中的监控与推理分离，利用解决前的已知感（feeling-of-knowing）和解决后的学习判断（judgment-of-learning）信号来控制何时信任、重试或聚合答案，在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。

0 人收藏 0 人点赞

#self-monitoring

X AI KOLs Following ↗ · 2026-05-11 缓存

一个基于LangChain构建的AI代理持续监控自己的代码库，标记缺失的监测器，并自动创建PR修复发现的漏洞，如Ramp公司的Alex Shevchenko所述。

0 人收藏 0 人点赞

#self-monitoring

arXiv cs.CL ↗ · 2026-04-20 缓存

一个包含524个项目的新型跨域基准（元认知监测电池）使用人类心理测量方法评估LLM在六个认知领域的自我监测能力。应用于20个前沿LLM后，揭示了三种不同的元认知配置，并表明准确率排名与元认知敏感性排名基本相反。

0 人收藏 0 人点赞

#self-monitoring

Reddit r/artificial ↗ · 2026-04-20

开发者构建了 Engram，这是一款面向 AI Agent 的开源认知架构。该系统内置了一套功能性内感受机制，能够通过实时压力检测与自适应行为调节来实现自我修正。开发者随后探讨了该 Agent 是否能够报告自身正体验到焦虑情绪。

0 人收藏 0 人点赞