模型现在能预测未来事件并在Polymarket上赚钱吗?
摘要
马克斯·普朗克研究所的研究人员推出了FutureSim,这是一个通过回放历史网络数据让AI代理预测真实世界未来事件的环境。在Codex上运行的GPT 5.5在部分Polymarket市场(如超级碗LX)上取得了近乎完美的Brier技能分数,超越了人类聚合市场,但在英国大选和格莱美奖等其他市场上表现不佳。
马克斯·普朗克研究所的研究人员最近发布了FutureSim,这是一个环境,其中代理被回放一个时间切片网络数据,并被任务预测真实世界的未来事件。在他们环境中与Polymarket重叠的一些问题上,比如超级碗LX市场(交易量7.04亿美元),在Codex上运行的GPT 5.5实际上超越了人类聚合市场,并以近乎完美的0.90 Brier技能分数结束。葡萄牙总统决选也是如此。一个没有实时网络访问、只是回放旧新闻的代理,竟然引领着一个涉及数亿真实资金的市场。但并非所有情况都完美,同一模型在英国大选和格莱美奖市场上表现不佳。AI预测领域的进展似乎很快,到2027年我们会有可靠的前景预测器吗?
相似文章
FutureSim:通过回放世界事件评估自适应智能体
FutureSim按时间顺序回放世界事件,以基准测试AI智能体的长期预测能力,结果发现即使是最优秀的智能体,准确率也仅为25%。
预测市场正在引领新闻走向,并成为独立的报道领域
随着 Polymarket 等平台因预测现实事件而获得主流关注,预测市场对新闻报道的影响日益深远,并逐渐成为新闻业独立报道的对象。
剖析预测市场背后的数据
对Polymarket和Kalshi等预测市场的分析,探讨其庞大的交易量是否真正产生了有价值的预测信息,还是仅仅沦为赌博,并参考了历史上的学术支持和当前数据。
与编码代理合作时一直面临的问题是:幻觉、语境丢失、过时的框架知识以及模型自信地猜测错误实现
Proxima 是一个本地工具,它通过 MCP、API、CLI 和 webhooks 协调多个 AI 模型(ChatGPT、Claude、Gemini、Perplexity)进行协作,通过在用户自己的机器上启用多模型工作流来解决编码代理的幻觉和语境丢失等问题。
Suraj 对决未来 | 与 ChatGPT
一部来自 OpenAI 的推广视频,展示了如何利用 ChatGPT 更聪明地为未来做准备,由 Early Man Film 制作。