标签
本文介绍了可满足漂移(satisfiable drift),这是一种多轮推理系统在保持内部逻辑一致性的同时,默默违反先前承诺的故障模式,并主导了矛盾。作者提出了DRIFT-Bench,一个包含816个问题的基准测试,并发现经过修复后,98-100%的残余错误是漂移错误。
Greg Kamradt 提出了一个AI验证难度的7级谱系,范围从像数学和代码这样可即时验证的领域,到具有缓慢、嘈杂反馈的文明规模系统。
Elon Musk发帖称某些说法来自法庭记录;一名用户使用AI聊天机器人Gemini和Grok进行验证,Grok确认了其中一部分。
开发者公开社交闹钟 App「PACT」技术栈:AI 验证、实时推送、应用内支付,全部用 Swift 原生开发。
Google正在将AI图像验证功能集成到Gemini应用中,用户可以使用SynthID数字水印来检查图像是否由Google AI生成或编辑。
一位数学家使用Gemini模型核查即将发表的数学论文,模型成功发现了命题4.2中的逻辑错误,并提供了三个无可辩驳的理由,帮助作者修正了结论。该案例展示了AI即使在前沿领域也能像训练有素的数学家一样进行深度推理。