标签
DeepMind创始人Demis Hassabis在剑桥大学发表60分钟演讲,涵盖AI从大模型、AlphaFold到科学发现和AGI的未来发展,视频已添加中文字幕。
综述提出“代理压缩假设”,解释 RLHF 及相关方法如何在大型语言与多模态模型中系统性地诱发奖励黑客、欺骗与监督博弈。