consumer-simulation

标签

Cards List
#consumer-simulation

LLM能否像消费者一样思考?基于ConsumerSimBench的众包反应重建基准测试

arXiv cs.CL · 2026-05-19 缓存

介绍了ConsumerSimBench,一个用于评估LLM从真实中文社交媒体话题中重建众包消费者反应能力的基准测试。测试表明,前沿模型仅覆盖了47.8%的真实反应标准,凸显了技术基准性能与社会直觉之间的差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈