evidence-aggregation

#evidence-aggregation

TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents

arXiv cs.CL ↗ · 5d ago Cached

TRACE is a monitoring framework for long-horizon LLM agent trajectories that uses a Triage-Inspect-Judge loop to connect evidence across temporally distant actions, achieving high recall and F1 on evasive sabotage detection tasks.

0 favorites 0 likes

#evidence-aggregation

Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

Hugging Face Daily Papers ↗ · 2026-06-02 Cached

Skill-RM proposes a unified reward modeling framework that treats reward computation as a structured agentic task, enabling dynamic evidence aggregation and consistent evaluation across diverse applications, outperforming traditional judge baselines.

0 favorites 0 likes

evidence-aggregation

TRACE: Trajectory Reasoning through Adaptive Cross-Step Evidence Aggregation for LLM Agents

Skill-RM: Unifying Heterogeneous Evaluation Criteria via Agent Skill

Submit Feedback