社交智能基准

Reddit r/singularity 2026/06/02 16:51 论文

social-intelligence benchmark ai-evaluation social-ai nlp

摘要

本文提出了一个新的基准，旨在评估AI系统的社交智能，衡量其理解和响应社交线索与互动的能力。

暂无内容

查看原文

相似文章

arXiv cs.AI

本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架，旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。

arXiv cs.AI

本文介绍了Benchmarking-Cultures-25数据集，该数据集分析了AI模型构建者如何在新闻稿中选择性突出基准测试。研究发现评估格局碎片化，跨模型可比性有限，并指出基准测试更多被用作市场定位的叙事工具，而非标准化的科学测量手段。

Hugging Face Daily Papers

本文介绍了 MLS-Bench，这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法，而非仅仅进行工程调优的基准测试。

Hugging Face Daily Papers

介绍了 ESI-BENCH，这是一个基于 OmniGibson 构建的全面具身空间智能基准，涵盖 10 个任务类别和 29 个子类别。实验表明，主动探索显著优于被动方法，失败主要源于行动盲视而非感知，揭示了模型与人类相比的元认知差距。

Hugging Face Daily Papers

介绍了SVI-Bench，这是一个利用团队运动进行战略视频智能的大规模基准，旨在评估模型在动态场景理解、因果推理、战略模拟和代理综合方面的能力。该基准揭示了一个能力断崖：模型在感知任务上表现良好，但在更高层次的战略推理上急剧下降。