real-world-evaluation

标签

Cards List
#real-world-evaluation

现实世界中的LLM:评估紧急情况下的“AI”

arXiv cs.AI · 2天前 缓存

本文探讨了基于LLM的机器翻译系统在文本到911紧急服务中的部署情况,指出了常见的误解,并为利益相关者提供了建议,以确保人工智能在关键场景中的安全有效使用。

0 人收藏 0 人点赞
#real-world-evaluation

RoboMemArena:一个全面且具挑战性的机器人记忆基准测试

Hugging Face Daily Papers · 2026-05-11 缓存

RoboMemArena 推出了一项大规模基准测试,旨在通过现实世界验证评估涵盖 26 个复杂任务的机器人记忆能力,并提出了 PrediMem,这是一种利用预测编码优化记忆管理的双系统视觉 - 语言 - 动作模型。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈