policy-evaluation

#policy-evaluation

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

Hugging Face Daily Papers ↗ · 2026-06-11 Cached

WEAVER is a multi-view world model for robotic manipulation that achieves high fidelity, consistency, and efficiency using flow-matching loss, demonstrating superior performance in policy evaluation, improvement, and test-time planning with significant real-world improvements.

0 favorites 0 likes

#policy-evaluation

StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

Hugging Face Daily Papers ↗ · 2026-05-29 Cached

StressDream enhances video world models by steering diffusion-based imaginations toward high-impact yet plausible outcomes through optimized noise initialization with semantic and plausibility objectives, enabling robust policy evaluation and improvement.

0 favorites 0 likes

#policy-evaluation

Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices

arXiv cs.LG ↗ · 2026-05-11 Cached

This paper demonstrates the robustness of refugee matching impact evaluations using off-policy methods like IPW and AIPW, confirming previous findings on algorithmic refugee assignment.

0 favorites 0 likes

#policy-evaluation

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Hugging Face Daily Papers ↗ · 2026-04-14 Cached

RoboLab is a high-fidelity simulation benchmarking framework for evaluating task-generalist robotic policies, introducing the RoboLab-120 benchmark with 120 tasks across visual, procedural, and relational competency axes. It enables scalable, realistic task generation and systematic analysis of policy behavior under controlled perturbations to assess true generalization capabilities.

0 favorites 0 likes

policy-evaluation

WEAVER, Better, Faster, Longer: An Effective World Model for Robotic Manipulation

StressDream: Steering Video World Models for Robust Policy Evaluation and Improvement

Robustness of Refugee-Matching Gains to Off-Policy Evaluation Choices

RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Submit Feedback