综合热度、重要程度与时效排序的热门资讯。
提出一种多目标强化学习框架,结合语义嵌入与Pareto-DQN,在推荐中平衡参与度、多样性和公平性,缓解过滤气泡问题。
本文介绍了 CAMS,一个模块化的多文档摘要框架,它提取带有词元级来源的原子性主张,对等价主张进行聚类,并将其重写为具有细粒度、多源可追溯性的摘要,显著提升了忠实度和引用精度。
本文提出了一种分层多智能体强化学习框架,该框架通过低层的约束流形强制执行硬安全约束,同时通过高层策略学习实现有效协调,提供了理论上的安全保障,并实现了近乎完美的安全率和良好的泛化能力。
本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。
本研究评估了六种专有大型语言模型(LLMs)在16种DSM-5病症中通过对抗性攻击的表现,发现安全防护措施仅对自杀和自伤可靠,而对进食障碍、物质使用障碍等其他病症的失败率高达100%。
本文批判了当前的AI智能体系统,区分了外在脚手架(agentic)和内在化(agentive)系统,并提出了目标-身份-配置器(GIC)架构,用于构建具有内生能力的通用智能体模型,同时提供了关于安全性和可控性的见解。
介绍了Neuro-Symbolic Drive,一个使用来自经典规划器的基于规则推理轨迹来微调驾驶VLA(Qwen3.5-4B)的框架,与标准CoT推理相比,显著降低了平均位移误差和漏检率。
本文提出了一种免训练的“先识别后回答”(IBA)框架,用于基于知识的视觉问答(KB-VQA),该框架将实体识别与证据排序解耦,在降低复杂度的同时优于微调的多模态检索增强生成基线。
RIFT-Bench是一种新的基准测试方法论,用于对智能体AI系统进行动态红队测试,通过图表示统一不同架构的安全性评估,并支持自动化发现和扫描漏洞。
本文介绍了归一化上下文利用(NCU)指标,用于量化RAG系统中上下文信息的增益。该指标挑战了规模定律,表明在严格的事实提取中,小语言模型由于较低的“先验主导性”可以与更大模型匹敌甚至更优,并且一个商业API在对抗性设置中经常覆盖外部证据。
EXPO-SQL 提出了一种细粒度的子句级策略优化方法用于 Text-to-SQL,通过执行反馈为每个子句而不是每个查询分配奖励,显著提升了性能,优于现有的监督微调和强化学习方法。
a16z 的 Josh Elman 表示,在 Roblox 和 Minecraft 中长大的孩子们会期待能重新混搭和控制他们使用的所有软件,这种趋势将影响未来的产品设计。
中国的LineShine超级计算机成为世界最快的计算机,自2017年以来首次取代美国的El Capitan,标志着高性能计算排名的重大转变。
Proposes a knowledge-guided two-stage transfer learning framework using a lightweight GPT-2-style Transformer for cross-domain bearing fault diagnosis with limited data, achieving 92.61% accuracy with only 10% labeled data.
This paper proposes two hardware-agnostic dynamic scheduling strategies (a model-free reinforcement learning agent and an on-the-fly approximated prediction method) for managing task execution in batteryless IoT devices with unknown workloads, and evaluates them against existing approaches using a simulation framework with real-world solar data.
A benchmark study comparing traditional machine learning methods (Random Forest, XGBoost, SVM, Logistic Regression) against lightweight transformer variants (DistilBERT, TinyBERT, MobileBERT) for on-device fault detection across three public datasets. Traditional ML offers competitive accuracy at far smaller resource footprints, while TinyBERT-4L is the most deployment-friendly transformer.
This paper introduces blockwise policy-drift gating, a lightweight method to improve on-policy distillation for language models by weighting loss based on old-current student probability shifts, achieving improved reasoning accuracy on math benchmarks.
This paper presents an offline reinforcement learning framework for optimizing SLAM throughput control in warehouse fulfillment environments, balancing throughput maximization with downstream stability. The approach is algorithm-agnostic and demonstrates that the CQL policy improves system health by 22.97% and reduces throttling duration by 3.18%.
This paper presents a comparative study of Bayesian Contextual Bandits, XGBoost, and Linear Regression for real-time sorter diversion optimization in e-commerce warehouses, showing BCB achieves 2.03% reward uplift with superior online learning and inference latency.
This paper introduces attention-free latent memory and dynamic re-encoding to improve long-horizon predictions in Koopman autoencoders, reducing error accumulation on benchmark dynamical systems.