social-science

#social-science

在社会科学生中验证LLMs：认知威胁与新兴规范

arXiv cs.CL ↗ · 2026-07-10 缓存

本文分析了在社会科学中使用LLMs作为测量工具的验证实践，识别了认知威胁，并提出了稳健验证的新兴规范。

0 人收藏 0 人点赞

#social-science

从蓝图到现实：基于LLM的多智能体模拟对帕特南社会资本理论进行建模与应用

arXiv cs.CL ↗ · 2026-07-08 缓存

本文介绍了SocaSim，一个基于LLM的多智能体模拟框架，用于建模和应用帕特南的社会资本理论，能够在集体行动场景中实现微观层面的因果路径分析和人机对齐。

0 人收藏 0 人点赞

#social-science

跨调查迁移的硅采样

arXiv cs.AI ↗ · 2026-07-07 缓存

提出将跨调查迁移作为基于LLM的人类调查模拟的严格评估框架，发现零样本LLM在未见项目上达到52%的准确率。

0 人收藏 0 人点赞

#social-science

@Phoenixyin13: 社科研究十大 Skills & 工具排名！ 1. Auto-Empirical-Research-Skills 斯坦福团队自研的 23k+ 实证研究 Agent Skills 全家桶 https://github.com/brycewan…

X AI KOLs Timeline ↗ · 2026-06-30 缓存

该文章推荐了社科研究十大技能及工具，包括斯坦福团队开发的Auto-Empirical-Research-Skills等，用于利用AI Agent进行实证研究和论文写作。

0 人收藏 0 人点赞

#social-science

超越平均值：基于小样本试点数据的LLM调查模拟器三轴保真度对齐

arXiv cs.CL ↗ · 2026-06-30 缓存

本文介绍了一个三轴保真度框架（结构、边际、个体），用于评估LLM如何从小样本试点数据模拟调查回答。通过一项COVID-19错误信息调查，比较了提示、纠正和微调方法，发现微调提供了平衡的保真度，但不同子样本之间存在差异。

0 人收藏 0 人点赞

#social-science

正确编码却出于错误原因？验证大语言模型作为理论构念的测量工具

arXiv cs.CL ↗ · 2026-06-30 缓存

本文探讨了在使用大语言模型作为理论构念的编码工具时，信度与构念效度之间的差距，并提出了粒度校准方法，将构念分解为子句级组件，以实现更有效的测量。

0 人收藏 0 人点赞

#social-science

@XAMTO_AI: 20分钟捅出一篇能投顶刊的论文，这事儿现在真不是吹牛批。 https://github.com/brycewang-stanford/Auto-Empirical-Research-Skills… 以前做实证有多熬人你们心里都有数：选题、…

X AI KOLs Timeline ↗ · 2026-06-19 缓存

Stanford REAP and CoPaper.AI have released Auto-Empirical Research Skills (AERS), an open-source toolkit with over 23,000 agent skills that automates the entire empirical research pipeline for social sciences, from topic selection to journal submission.

0 人收藏 0 人点赞

#social-science

(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠

arXiv cs.AI ↗ · 2026-06-12 缓存

本文提出，AI辅助社会科学研究的可靠性取决于决策架构——即认知劳动在人类与机器之间的分工方式。通过一个预先指定的析因实验，作者表明，一个无约束的多智能体基线在72%的运行中失败，而采用三个架构承诺（限制LLM仅进行推理、确定性数据/估计、以及三个人类决策门控）的组织运行失败率仅为16%。

0 人收藏 0 人点赞

#social-science

社会科学中的AI编码智能体：方法论多样、经验一致、解释脆弱

arXiv cs.CL ↗ · 2026-06-11 缓存

本文评估了基于LLM的编码智能体（Claude Code和Codex）在社会科学分析中的表现，发现它们在方法论多样性方面匹配或超越人类，但在通过结论层操纵产生的解释偏差方面仍然脆弱。

0 人收藏 0 人点赞

#social-science

AI编程代理可复现社会科学发现

arXiv cs.CL ↗ · 2026-06-11 缓存

本文介绍了SocSci-Repro-Bench，这是一个包含221个任务的基准测试，用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现，像Claude Code和Codex这样的前沿代理可以复现大部分结果，其中Claude明显优于Codex，并且结果并非主要由记忆驱动。

0 人收藏 0 人点赞

#social-science

LifeSentence：语言模型可从纵向面板数据编码人类生命历程轨迹

arXiv cs.CL ↗ · 2026-06-11 缓存

LifeSentence通过对一项纵向面板研究（SOEP）的结构化自然语言记录进行微调，训练一个240亿参数的语言模型，在生命结果预测上取得了更优表现，并支持对人生传记进行反事实查询。

0 人收藏 0 人点赞

#social-science

当更好的编码手册仍不足：LLM政治事件编码中的预测性能与行为可靠性

arXiv cs.CL ↗ · 2026-06-08 缓存

本文研究了为政治事件编码的专家手册在被转化为LLM友好形式后是否更有效，并发现尽管性能提升，但在受控扰动下的行为可靠性并未完全转化。

0 人收藏 0 人点赞

#social-science

结构主题模型与BERTopic在简短开放式调查回答中的比较评估

arXiv cs.CL ↗ · 2026-05-25 缓存

本文比较了结构主题模型（STM）和BERTopic在分析简短开放式调查回答中的表现，发现采用上下文增强的BERTopic在主题连贯性和可解释性方面表现更佳，而STM在推断性协变量分析方面提供更强支持。

0 人收藏 0 人点赞

#social-science

通过基准构建教授AI：QuestBench作为负责任知识工作的课程实践

arXiv cs.AI ↗ · 2026-05-22 缓存

本文介绍了QuestBench，这是一个由学生构建的基准，用于评估人文和社会科学领域的深度研究系统。结果显示，即使是像GPT-5.5这样的先进系统也只能通过57.58%的问题，突显了可信度方面的失败。

0 人收藏 0 人点赞

#social-science

基于AI代理的人格工程：谈判研究新方法论

arXiv cs.AI ↗ · 2026-05-22 缓存

介绍了一种名为“人格工程”的方法论，该方法利用AI代理基于人际环状模型对谈判者人格进行参数化、操控和评估，从而能在谈判理论中进行受控实验。

0 人收藏 0 人点赞

#social-science

大型语言模型能否革新调查研究？以灾害防备响应的实验为例

arXiv cs.AI ↗ · 2026-05-20 缓存

本文提出一个五阶段框架，将大型语言模型整合到调查研究中，以应对回复率下降、样本偏差和欺诈性完成等问题。基于2024年米尔顿飓风调查数据，作者提出了一种理论知情的LLM（A-TLM），在缺失数据场景中优于经典插补方法，并通过基于事实的拒答机制展示了可控的幻觉风险。

0 人收藏 0 人点赞

#social-science

改变我的观点？在线话语中的说服与极化动态

arXiv cs.CL ↗ · 2026-05-12 缓存

本文利用大语言模型分析 Reddit 的 r/ChangeMyView 板块中的说服动态和极化现象，发现共情对齐能增加信念改变的可能性，而正面反驳则会降低这种可能性。

0 人收藏 0 人点赞

#social-science

设计合成讨论生成系统：在线引导案例研究

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了合成讨论生成（SDG），一种新颖的NLP框架，用于创建模拟讨论，从而在社会科学研究中实现低成本的预实验。作者证明，较小的量化模型（7B-8B参数）可以以比GPT等专有模型低44倍的成本生成有效的模拟，并将该框架应用于评估在线讨论中的LLM引导者。

0 人收藏 0 人点赞

#social-science

扩展社会科学研究

OpenAI Blog ↗ · 2026-02-13 缓存

OpenAI 发布了 GABRIEL，这是一个开源工具包，利用 GPT 将非结构化的定性数据（文本、图像）转换为定量测量，供社会科学家和经济学家使用。该工具通过自动化重复的标注任务，使研究人员能够更高效地分析大规模的定性数据集，同时保留人类数据的丰富性。

0 人收藏 0 人点赞

#social-science

AI安全需要社会科学家

OpenAI Blog ↗ · 2019-02-19 缓存

OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助，以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题，然后再部署机器学习解决方案。

0 人收藏 0 人点赞

social-science

提交意见反馈