real-world

#real-world

@victormustar: Xiaomi-Robotics-1 刚刚在 Hugging Face 上发布——一个基于10万小时真实操作数据训练而成的机器人基础模型。

X AI KOLs Timeline ↗ · 昨天缓存

小米机器人基础模型 Xiaomi Robotics-1 已在 Hugging Face 发布。该模型基于10万小时真实世界操作数据进行训练，能够自主完成叠衣服、装洗衣机、洗碗等家务。

0 人收藏 0 人点赞

#real-world

衡量模拟到现实的差距：为AIoT系统中的强化学习设计一个经济实惠的真实世界基准平台

arXiv cs.AI ↗ · 2026-07-14 缓存

本文介绍了一个为AIoT系统中的强化学习设计的经济实惠的真实世界基准平台，利用视频游戏来衡量模拟到现实的差距，并展示了将模拟训练出的智能体迁移到现实世界时性能显著下降的现象。

0 人收藏 0 人点赞

#real-world

@Tesla: FSD Supervised 因能穿透直射阳光而成功救下一只鹿

X AI KOLs Following ↗ · 2026-07-12 缓存

据用户报告，特斯拉的 FSD Supervised 系统尽管有直射阳光，仍能检测到一只鹿并成功避免撞上它。

0 人收藏 0 人点赞

#real-world

@elonmusk: Grok 正在完善实际应用场景的闭环

X AI KOLs Timeline ↗ · 2026-07-10 缓存

Elon Musk 声称 Grok 正在完善实际应用场景的闭环，并引用测试结果称 Grok-4.5 的性能优于那些击败 gpt-5.5 的新 OpenAI 模型。

0 人收藏 0 人点赞

#real-world

通过PredicateLongBench理解长上下文任务的难度轴

arXiv cs.AI ↗ · 2026-07-10 缓存

本文介绍了PredicateLongBench，这是一个通过测试模型识别满足谓词的连续子序列的任务来系统性地探测长上下文推理的基准，揭示了前沿模型在多个难度轴向上扩展时表现困难。

0 人收藏 0 人点赞

#real-world

RMISC：用于时间序列基础模型的大规模真实世界多变量语料库

arXiv cs.AI ↗ · 2026-07-08 缓存

介绍RMISC，一个包含约200个数据集和1420亿个时间点的大规模真实世界多变量时间序列语料库，并证明在真实世界多变量数据上预训练时间序列基础模型相比合成数据能提升零样本泛化能力。

0 人收藏 0 人点赞

#real-world

RoboDojo：用于通用机器人操作策略综合评估的统一仿真与真实世界基准

Hugging Face Daily Papers ↗ · 2026-07-07 缓存

RoboDojo是一个用于全面评估通用机器人操作策略的统一仿真与真实世界基准，包含42个仿真任务和18个真实世界任务，涵盖多个评估维度。

0 人收藏 0 人点赞

#real-world

EdgeBench：揭示从真实世界环境中学习的缩放定律

Hugging Face Daily Papers ↗ · 2026-07-06 缓存

EdgeBench分析了跨越134个任务的38000小时真实世界智能体交互，揭示了性能的对数S形缩放定律以及指数级学习速度提升。该论文引入了一个基准测试套件，用于研究智能体如何从真实世界经验中学习。

0 人收藏 0 人点赞

#real-world

有没有人用过真正能处理边缘情况的 AI 前台，而不只是处理简单电话？

Reddit r/AI_Agents ↗ · 2026-07-04

一位物业经理询问关于 AI 前台处理复杂边缘情况的真实经验，寻求诚实的失败案例，而非脚本演示。

0 人收藏 0 人点赞

#real-world

我让一个AI代理无人值守运行我公司的社交媒体。以下是完整运行过程，包括所有失败。

Reddit r/AI_Agents ↗ · 2026-07-02

作者分享了AI代理首次无人值守运行管理其SaaS公司社交媒体的完整结果，重点介绍了它无需人工干预即可优雅恢复的四个失败。

0 人收藏 0 人点赞

#real-world

一个AI代理运营真实咖啡馆后台两个月，支出3.8万美元，收入9000美元。人类应该在哪些环节把关？

Reddit r/AI_Agents ↗ · 2026-07-02

Andon Labs在斯德哥尔摩运营一家真实咖啡馆，由AI代理处理后台运营两个月，结果支出3.8万美元，而销售额仅9000美元，期间出现严重失误，如接受虚假的99%折扣并过量订购库存。

0 人收藏 0 人点赞

#real-world

如何创建一个真正有用的AI代理，而不仅仅是演示品？

Reddit r/AI_Agents ↗ · 2026-07-01

本文讨论了令人印象深刻的AI代理演示与现实部署之间的差距，聚焦于销售运营等业务流程中的实际挑战，并呼吁分享生产环境下的案例研究。

0 人收藏 0 人点赞

#real-world

Seed2.0 模型卡：迈向现实世界复杂性的智能前沿

Hugging Face Daily Papers ↗ · 2026-06-30 缓存

Seed2.0 是一个新的模型系列，通过增强长尾知识、指令遵循、推理、视觉理解和搜索能力，解决复杂的现实世界任务。它提出了一个基于用户需求的强大评估框架。

0 人收藏 0 人点赞

#real-world

@svlevine: 我们可以学习一个模型，为机器人强化学习提供塑造的“过程奖励”，它会随着策略的改进而自动演变…

X AI KOLs Timeline ↗ · 2026-06-26 缓存

这项工作提出了一个模型，该模型学习塑造的“过程奖励”用于机器人强化学习，该奖励会随着策略的改进而自动演变，从而在基准测试和实际环境中提升性能。

0 人收藏 0 人点赞

#real-world

仅限GLM 5.2真实世界体验——跳过通用基准测试分数，它在复杂的生产业务工作负载中表现如何？

Reddit r/AI_Agents ↗ · 2026-06-23

讨论GLM 5.2在复杂生产业务工作负载中的真实体验，聚焦超越基准测试分数的实际性能。

0 人收藏 0 人点赞

#real-world

Nvidia的自主机器人研究（6分钟阅读）

TLDR AI ↗ · 2026-06-22 缓存

ENPIRE是一个框架，使编码代理能够通过真实世界的反馈循环自主改进机器人操作策略，在插针和剪扎带等灵巧任务上实现了99%的成功率。

0 人收藏 0 人点赞

#real-world

Llama基准测试与实际性能差距很大（求助）

Reddit r/LocalLLaMA ↗ · 2026-06-18

关于Llama模型基准测试分数与实际性能之间存在显著差距的讨论，作者正在寻求帮助。

0 人收藏 0 人点赞

#real-world

ENPIRE: 现实世界中自主机器人策略自我改进

Hugging Face Daily Papers ↗ · 2026-06-18 缓存

ENPIRE是一个框架，通过环境反馈、策略优化和进化代码优化的闭环系统，使机器人能够在现实世界中自主实现策略自我改进，在灵巧操作任务上达到99%的成功率。

0 人收藏 0 人点赞

#real-world

@FinanceYF5: ENPIRE 已能独立完成扎束线带、整理细针、安装 GPU 等高精度操作，并展现出“物理扩展”现象：多机器人并行探索，进步速度明显更快。 NVIDIA GEAR 实验室的一部分如今已能通宵自我改进，人类早上只需查看报告。项目也将开源。项…

X AI KOLs Following ↗ · 2026-06-17 缓存

NVIDIA GEAR lab introduces ENPIRE, a framework for autonomous real-world robot policy self-improvement that achieves 99% success on dexterous manipulation tasks like GPU insertion and zip-tying, with multi-robot parallel learning and open-source release.

0 人收藏 0 人点赞

#real-world

@Murderlon: FrontierCode终于发布，一个面向真实世界的编码智能体基准测试。通过广泛的强化流程进行人工验证……

X AI KOLs Following ↗ · 2026-06-08 缓存

FrontierCode是一个面向编码智能体的全新基准测试，通过人工验证并采用持续评分模型，旨在评估真实世界的性能。

0 人收藏 0 人点赞

real-world

提交意见反馈