标签
介绍了ConsumerSimBench,一个用于评估LLM从真实中文社交媒体话题中重建众包消费者反应能力的基准测试。测试表明,前沿模型仅覆盖了47.8%的真实反应标准,凸显了技术基准性能与社会直觉之间的差距。