标签
这篇文章探讨了量子计算的现状,指出尽管特朗普政府做出了雄心勃勃的承诺,微软也发布了Majorana 2芯片,但还没有任何量子计算机执行过有用的任务。独立研究人员批评这些说法夸大了渐进式进展。
一个观察:未来的技术往往始于看似微不足道的玩具,然后逐步演变为文明的基础设施。
本文在WorkBench基准发布两年后再次对其进行评估,显示当前最佳智能体(Claude Opus 4.8)能完成89%的任务,且仅有2.5%的有害副作用,而2024年GPT-4的完成率为43%,有害率为26%。研究发现,能力与安全性同步提升,开放权重模型大幅降低了成本,但一些基本错误仍然存在。
讨论近期AI模型在'Humanity's Last Exam'基准测试中的得分,指出从2024年5月GPT-4o的2.7%提升至2026年6月左右45%,并对该考试的难度提出疑问。
Steeve Morin 报告通过 ZML 在 Tenstorrent 硬件上运行 Llama 3.1 3B,达到 26 tok/s,接近 Tenstorrent 声称的 33 tok/s。
讨论了尽管在任务执行方面取得了进展,但阻止 AI agents 可靠处理现实任务的持续挑战,例如不断变化的网站和不一致的工作流程。
本文针对智能导学系统引入了参与度预测,利用425名中学生的交互日志,预测每周练习分钟数和掌握的新技能数量。基于特征的模型相比启发式基线将误差降低了22-33%,为导学-学习者目标设定提供了可解释的模式。
菲尔兹奖得主蒂莫西·高尔斯报告使用 GPT5.5 Pro 解决公开数学问题,并预测由于人工智能的快速发展,数学研究将很快面临危机。