标签
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
本文实证检验了基于LLM的用户状态分类的心理测量学可靠性,发现213项指标中仅有31项满足可靠性标准,对实时自适应系统中的信任提出了质疑。
PRISM是一个闭环框架,将提示工程视为企业对话式AI的持续可靠性问题。它自动执行测试生成、模拟、评估和修复,实现了99%的可靠性,并将编写时间从几天缩短到几分钟。
本文调研了AI在整个研究生命周期中的能力与局限,从创意生成到成果发布,识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。
本文介绍了 AgentForesight,这是一个用于基于大语言模型(LLM)的多智能体系统的在线审计和早期故障预测框架。文章提出了一个新数据集 AFTraj-22K,以及一个专用模型 AgentForesight-7B,该模型在检测轨迹执行过程中的决定性错误方面优于领先的专有模型。
一位前AI倡导者详细阐述了对大语言模型的幻灭,指出可靠性问题、版本间退化、企业工作流崩溃,以及部署在关键行业的AI系统缺乏问责制。
一位用户讨论了将免费AI模型用作教育辅导时在可靠性和一致性上的挫败感,质疑付费版本在学习技术概念方面是否表现显著更好。
研究者提出 SHADE,一种混合估计器,在仅能获取少量黑盒样本时,融合 Good-Turing 覆盖率与图谱线索,量化语义不确定性并检测大模型幻觉。
本论文提出了一个利用内部表示而非输出层统计的LLM共形预测框架,引入层级信息(LI)评分作为非一致性度量,在分布偏移下改进有效性-效率权衡。该方法在QA基准上相比文本级基线展现出更强的对校准-部署不匹配的鲁棒性。
这件事发生在几小时前,我感觉自己确实偶然发现了一个值得为关注 AI 行为的人记录下来的案例。我会尽量精确地还原整个时间线,因为事件的先后顺序在此处至关重要。如果你想自己阅读完整聊天记录:https://g.co/gemini/share/0cb9f054ca58 --- **背景** 我当时正在使用付费版 Gemini 最先进的模型来分析 AAVE 上的实时加密交易。该代币在过去一小时内毫无征兆地下跌了 7–9%,没有任何新闻能够解释,而...
MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。