标签
本文介绍了卸载分数(offloading score),这是一种通过反事实工作流量化转移到AI工具的认知努力比例来衡量AI依赖度的指标。通过内在评估和一项针对开发者的用户研究验证了该指标,结果显示其在时间压力下检测依赖度增加的能力优于现有方法。
本文介绍了 HyperLens,一种高分辨率探针,可通过追踪层间的细粒度置信度轨迹来量化大型语言模型(LLMs)的认知努力。研究表明,复杂任务需要更高的认知努力,并展示了监督微调(SFT)如何降低这种努力,从而可能导致性能下降。