ai-methodology

#ai-methodology

评估陷阱：基准设计作为理论承诺

arXiv cs.AI ↗ · 2026-05-15 缓存

本文识别了“评估陷阱”，即人工智能基准测试无意中通过缩小“进步”的定义来稳定主导范式，并引入了Epistematics，一种元评估方法论，以确保评估标准能够区分真实能力与代理行为。

0 人收藏 0 人点赞

#ai-methodology

@WSInsights: 国外一位 25岁的年轻播客主，这两年把 OpenAI、Anthropic、DeepMind 这些顶级 AI 实验室的核心人物挨个访谈过一遍。Karpathy、Hassabis、Dario Amodei、Ilya Sutskever 这些圈…

X AI KOLs Timeline ↗ · 2026-05-08

25岁播客主Dwarkesh Patel访谈了OpenAI、Anthropic、DeepMind等顶级AI实验室的核心人物，包括Karpathy、Hassabis、Dario Amodei、Ilya Sutskever等。他公开了自己用AI辅助的「一周准备」工作流：让AI列出必读资料、追踪未懂之处、用AI绘制全景图、自己动手实现代码。Time杂志2024年将其列入「AI 100人」。

0 人收藏 0 人点赞

ai-methodology

评估陷阱：基准设计作为理论承诺

@WSInsights: 国外一位 25岁的年轻播客主，这两年把 OpenAI、Anthropic、DeepMind 这些顶级 AI 实验室的核心人物挨个访谈过一遍。Karpathy、Hassabis、Dario Amodei、Ilya Sutskever 这些圈…

提交意见反馈