利用大型语言模型构建社会世界模型

Hugging Face Daily Papers 论文

摘要

本文介绍了社会世界模型(SWM)框架,该框架利用大型语言模型,无需显式标注即可模拟社会信念在事件响应中的动态变化。同时提出了基于预测市场的基准测试SWM-bench,并展示了最先进的结果。

理解并预测社会信念如何随事件(从政策变化到科学突破)演变,仍是社会科学中的一项基本挑战。鉴于大型语言模型(LLM)具备常识知识和社会智能,我们提出疑问:LLM能否模拟社会事件后社会信念的动态变化?在本工作中,我们引入了社会世界模型(SWM)的概念,这是一个通用框架,旨在捕捉重大事件下社会信念的演变过程。SWM通过挖掘社会数据中的时间模式并优化证据下界,学习社会信念的状态转移函数,无需人工显式标注事件与信念变化之间的关联,也无需昂贵的普查数据。为评估SWM,我们提出了一个基准测试SWM-bench,该基准源自真实世界的预测市场,具体为Kalshi和Polymarket。SWM-bench包含超过12000个数据点,涵盖政治、金融和加密货币等多个领域的社会信念预测任务。实验结果表明,SWM显著优于时间序列基座模型,在Kalshi数据上取得了最先进的结果,并在Polymarket数据上展现出具有竞争力的性能,同时为理解社会信念动态的底层机制提供了可解释的洞察。
查看原文
查看缓存全文

缓存时间: 2026/06/11 21:36

论文页面 - 利用大语言模型构建社会世界模型

来源:https://huggingface.co/papers/2606.11482

摘要

Social World Model 框架通过时序模式挖掘和证据下界优化,无需显式人工标注即可捕捉社会信念随事件的演化过程。

理解和预测社会信念如何因事件(从政策变革到科学突破)而演变,仍然是社会科学领域的一项基本挑战。鉴于大语言模型具备常识知识和社会智能,我们提出一个问题:大语言模型能否对社会事件后社会信念的动态变化进行建模?在这项工作中,我们引入了 Social World Model (SWM) 的概念,这是一个通用框架,旨在捕捉重大事件后社会信念的演变方式。SWM 通过挖掘社会数据中的时序模式并优化证据下界,来学习社会信念的状态转移函数,无需显式的人工标注将事件与信念变化联系起来,也无需昂贵的普查数据。为了评估 SWM,我们构建了一个基准测试 SWM-bench,其数据来源于真实世界的预测市场,具体包括 Kalshi 和 Polymarket。SWM-bench 包含超过 12,000 个数据点,涵盖政治、金融和加密货币等多个领域的社会信念预测任务。实验结果表明,SWM 显著优于时序基础模型,在 Kalshi 数据上取得了最先进的结果,并在 Polymarket 数据上展现出具有竞争力的性能,同时为理解社会信念动态的潜在机制提供了可解释的洞见。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11482) 查看 PDF (https://arxiv.org/pdf/2606.11482) GitHub10 (https://github.com/ulab-uiuc/social-world-model) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11482)

通过你的智能体获取这篇论文:

hf papers read 2606\.11482

没有最新版 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型 0

暂无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.11482 以从本页面建立链接。

引用本论文的数据集 0

暂无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11482 以从本页面建立链接。

引用本论文的 Spaces 0

暂无 Space 链接本论文

请在 Space README.md 中引用 arxiv.org/abs/2606.11482 以从本页面建立链接。

包含本论文的收藏集 0

暂无收藏集包含本论文

请将本论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以从本页面建立链接。

相似文章

评估大语言模型在社交媒体分析中的能力:多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。