consumer-simulation

#consumer-simulation

LLM能否像消费者一样思考？基于ConsumerSimBench的众包反应重建基准测试

arXiv cs.CL ↗ · 2026-05-19 缓存

介绍了ConsumerSimBench，一个用于评估LLM从真实中文社交媒体话题中重建众包消费者反应能力的基准测试。测试表明，前沿模型仅覆盖了47.8%的真实反应标准，凸显了技术基准性能与社会直觉之间的差距。

0 人收藏 0 人点赞