标签
本文比较了结构主题模型(STM)和BERTopic在分析简短开放式调查回答中的表现,发现采用上下文增强的BERTopic在主题连贯性和可解释性方面表现更佳,而STM在推断性协变量分析方面提供更强支持。
本文介绍了QuestBench,这是一个由学生构建的基准,用于评估人文和社会科学领域的深度研究系统。结果显示,即使是像GPT-5.5这样的先进系统也只能通过57.58%的问题,突显了可信度方面的失败。
介绍了一种名为“人格工程”的方法论,该方法利用AI代理基于人际环状模型对谈判者人格进行参数化、操控和评估,从而能在谈判理论中进行受控实验。
本文提出一个五阶段框架,将大型语言模型整合到调查研究中,以应对回复率下降、样本偏差和欺诈性完成等问题。基于2024年米尔顿飓风调查数据,作者提出了一种理论知情的LLM(A-TLM),在缺失数据场景中优于经典插补方法,并通过基于事实的拒答机制展示了可控的幻觉风险。
本文利用大语言模型分析 Reddit 的 r/ChangeMyView 板块中的说服动态和极化现象,发现共情对齐能增加信念改变的可能性,而正面反驳则会降低这种可能性。
本文介绍了合成讨论生成(SDG),一种新颖的NLP框架,用于创建模拟讨论,从而在社会科学研究中实现低成本的预实验。作者证明,较小的量化模型(7B-8B参数)可以以比GPT等专有模型低44倍的成本生成有效的模拟,并将该框架应用于评估在线讨论中的LLM引导者。
OpenAI 发布了 GABRIEL,这是一个开源工具包,利用 GPT 将非结构化的定性数据(文本、图像)转换为定量测量,供社会科学家和经济学家使用。该工具通过自动化重复的标注任务,使研究人员能够更高效地分析大规模的定性数据集,同时保留人类数据的丰富性。
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。