perturbations

标签

Cards List
#perturbations

脆弱的思考:大型语言模型如何处理思维链扰动

arXiv cs.CL · 2026-04-20 缓存

本论文对大型语言模型在思维链推理步骤中处理损坏情况的能力进行了全面的实证评估,在数学推理任务上针对13个模型和5种扰动类型(数学错误、单位转换、盲从、跳过步骤、额外步骤)进行了测试。研究结果揭示了异质性的漏洞模式,对在多阶段推理管道中部署LLM具有重要意义。

0 人收藏 0 人点赞
#perturbations

神经网络策略的对抗性攻击

OpenAI Blog · 2017-02-08 缓存

OpenAI 研究人员展示了对抗性攻击(先前在计算机视觉中研究过)对强化学习中的神经网络策略也同样有效,即使在白盒和黑盒设置中进行微小的难以察觉的扰动也会导致显著的性能下降。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈