@FudanUniversity: 复旦大学期末考试:学生不回答问题,而是出题——旨在难倒AI。51名学生,每人10道题,3个AI模型…
摘要
复旦大学举办了一场别开生面的期末考试,51名学生每人编写了10道问题,旨在难倒三个AI模型(Claude、DeepSeek、MiniMax),成绩根据这些问题对AI的难度而定。
复旦大学期末考试:学生不回答问题,而是出题——旨在难倒AI。
51名学生,每人10道题,3个AI模型(Claude、DeepSeek、MiniMax)接受考验。你让AI越难通过,你的分数就越高。https://t.co/ysQ00ww7dD
查看缓存全文
缓存时间: 2026/07/01 01:58
复旦大学期末考试:学生不答题,而是出题——目的是难倒AI。
51名学生,每人出10道题,3个AI模型(Claude、DeepSeek、MiniMax)接受挑战。你越能让AI答错,分数就越高。https://t.co/ysQ00ww7dD
相似文章
@Phoenixyin13: 这种学生出题难倒AI的考核方式确实非常新颖,且极具前沿意义。 学生需要探索 Claude、DeepSeek 和 MiniMax 这三个模型的长处与短板。 在这个过程中,学生不再盲信AI的输出,而是学会用审视、批判的眼光去复核AI的回答,这…
这种教育考核方式鼓励学生探索 Claude、DeepSeek 和 MiniMax 三个模型的长处与短板,出题难倒AI,从而培养批判性思维和AI时代所需的竞争力。
布朗大学教授谴责考试大规模AI作弊行为
布朗大学的Roberto Serrano教授在一次期中考试中发现至少50名学生利用AI作弊,引发了关于高等教育学术诚信的讨论。
@FinanceYF5: 2. 回答那些能难倒大多数 AI 的问题
一位用户测试Claude Fable在经典考验AI的问题上的表现,例如数出strawberry中字母r的个数、比较5.11和5.1,并开玩笑地声称AGI已经实现。
Humanity's Last Exam 当前基准测试成绩思考?
讨论近期AI模型在'Humanity's Last Exam'基准测试中的得分,指出从2024年5月GPT-4o的2.7%提升至2026年6月左右45%,并对该考试的难度提出疑问。
@dair_ai: // Agents' Last Exam // Agents' Last Exam 是一个包含1000多项经济价值任务的动态基准,由2…
Agents' Last Exam 是一个动态基准,包含超过1000项经济价值任务,旨在评估AI agents在真实世界工作流程中的表现,目前在最高难度级别上的完全通过率仅为2.6%。