热门

#81

打破过滤气泡：面向多目标推荐的语义Pareto-DQN框架

arXiv cs.AI ↗ · 3小时前缓存

提出一种多目标强化学习框架，结合语义嵌入与Pareto-DQN，在推荐中平衡参与度、多样性和公平性，缓解过滤气泡问题。

0 人收藏 0 人点赞

#82

构建即忠实：基于主张锚定的多文档摘要归因

arXiv cs.CL ↗ · 3小时前缓存

本文介绍了 CAMS，一个模块化的多文档摘要框架，它提取带有词元级来源的原子性主张，对等价主张进行聚类，并将其重写为具有细粒度、多源可追溯性的摘要，显著提升了忠实度和引用精度。

0 人收藏 0 人点赞

#83

基于约束流形控制的安全且可泛化的分层多智能体强化学习

arXiv cs.AI ↗ · 3小时前缓存

本文提出了一种分层多智能体强化学习框架，该框架通过低层的约束流形强制执行硬安全约束，同时通过高层策略学习实现有效协调，提供了理论上的安全保障，并实现了近乎完美的安全率和良好的泛化能力。

0 人收藏 0 人点赞

#84

LLM归因指标能否迁移？跨数据集与构念的检索增强生成评估审计

arXiv cs.CL ↗ · 3小时前缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计，发现同一构念内没有单一指标能在数据集间迁移，挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞

#85

一年后...伤害依旧，但我们仍在！

arXiv cs.CL ↗ · 3小时前缓存

本研究评估了六种专有大型语言模型（LLMs）在16种DSM-5病症中通过对抗性攻击的表现，发现安全防护措施仅对自杀和自伤可靠，而对进食障碍、物质使用障碍等其他病症的失败率高达100%。

0 人收藏 0 人点赞

#86

智能体模型批判

arXiv cs.AI ↗ · 3小时前缓存

本文批判了当前的AI智能体系统，区分了外在脚手架（agentic）和内在化（agentive）系统，并提出了目标-身份-配置器（GIC）架构，用于构建具有内生能力的通用智能体模型，同时提供了关于安全性和可控性的见解。

0 人收藏 0 人点赞

#87

Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

arXiv cs.AI ↗ · 3小时前缓存

介绍了Neuro-Symbolic Drive，一个使用来自经典规划器的基于规则推理轨迹来微调驾驶VLA（Qwen3.5-4B）的框架，与标准CoT推理相比，显著降低了平均位移误差和漏检率。

0 人收藏 0 人点赞

#88

先定位后排序：重新审视基于知识的VQA中的免训练实体识别

arXiv cs.CL ↗ · 3小时前缓存

本文提出了一种免训练的“先识别后回答”（IBA）框架，用于基于知识的视觉问答（KB-VQA），该框架将实体识别与证据排序解耦，在降低复杂度的同时优于微调的多模态检索增强生成基线。

0 人收藏 0 人点赞

#89

RIFT-Bench：面向智能体AI系统的动态红队测试方法

arXiv cs.AI ↗ · 3小时前缓存

RIFT-Bench是一种新的基准测试方法论，用于对智能体AI系统进行动态红队测试，通过图表示统一不同架构的安全性评估，并支持自动化发现和扫描漏洞。

0 人收藏 0 人点赞

#90

量化RAG系统中的先验主导性

arXiv cs.CL ↗ · 3小时前缓存

本文介绍了归一化上下文利用（NCU）指标，用于量化RAG系统中上下文信息的增益。该指标挑战了规模定律，表明在严格的事实提取中，小语言模型由于较低的“先验主导性”可以与更大模型匹敌甚至更优，并且一个商业API在对抗性设置中经常覆盖外部证据。

0 人收藏 0 人点赞

#91

EXPO-SQL：基于执行的子句级策略优化用于Text-to-SQL

arXiv cs.CL ↗ · 3小时前缓存

EXPO-SQL 提出了一种细粒度的子句级策略优化方法用于 Text-to-SQL，通过执行反馈为每个子句而不是每个查询分配奖励，显著提升了性能，优于现有的监督微调和强化学习方法。

0 人收藏 0 人点赞

#92

@FinanceYF5: a16z 的 Josh Elman 表示，Roblox 一代会期待能够重新混搭他们使用的所有软件： “我们有一代孩子正在长大，他们是在 Minecraft 和 Roblox 中成长起来的。他们习惯了玩那种可以由自己控制世界的游戏。” “他…

X AI KOLs Following ↗ · 2小时前缓存

a16z 的 Josh Elman 表示，在 Roblox 和 Minecraft 中长大的孩子们会期待能重新混搭和控制他们使用的所有软件，这种趋势将影响未来的产品设计。

0 人收藏 0 人点赞

#93

说到那些中国芯片……“中国超级计算机自2017年以来首次取代美国机器成为世界最快”

Reddit r/LocalLLaMA ↗ · 3小时前缓存

中国的LineShine超级计算机成为世界最快的计算机，自2017年以来首次取代美国的El Capitan，标志着高性能计算排名的重大转变。

0 人收藏 0 人点赞

#94

An LLM-based Two-Stage Transformer Framework for Cross-Domain Bearing Fault Diagnosis with Limited Data

arXiv cs.LG ↗ · 3小时前缓存

Proposes a knowledge-guided two-stage transfer learning framework using a lightweight GPT-2-style Transformer for cross-domain bearing fault diagnosis with limited data, achieving 92.61% accuracy with only 10% labeled data.

0 人收藏 0 人点赞

#95

Managing Task Execution for Unknown Workloads in Batteryless IoT: A Hardware-Agnostic Evaluation

arXiv cs.LG ↗ · 3小时前缓存

This paper proposes two hardware-agnostic dynamic scheduling strategies (a model-free reinforcement learning agent and an on-the-fly approximated prediction method) for managing task execution in batteryless IoT devices with unknown workloads, and evaluates them against existing approaches using a simulation framework with real-world solar data.

0 人收藏 0 人点赞

#96

Lightweight Transformer Models for On-Device Fault Detection: A Benchmark Study on Resource-Constrained Deployment

arXiv cs.LG ↗ · 3小时前缓存

A benchmark study comparing traditional machine learning methods (Random Forest, XGBoost, SVM, Logistic Regression) against lightweight transformer variants (DistilBERT, TinyBERT, MobileBERT) for on-device fault detection across three public datasets. Traditional ML offers competitive accuracy at far smaller resource footprints, while TinyBERT-4L is the most deployment-friendly transformer.

0 人收藏 0 人点赞

#97

Blockwise Policy-Drift Gating for On-Policy Distillation

arXiv cs.LG ↗ · 3小时前缓存

This paper introduces blockwise policy-drift gating, a lightweight method to improve on-policy distillation for language models by weighting loss based on old-current student probability shifts, achieving improved reasoning accuracy on math benchmarks.

0 人收藏 0 人点赞

#98

Offline Reinforcement Learning for Warehouse SLAM Throughput Control

arXiv cs.LG ↗ · 3小时前缓存

This paper presents an offline reinforcement learning framework for optimizing SLAM throughput control in warehouse fulfillment environments, balancing throughput maximization with downstream stability. The approach is algorithm-agnostic and demonstrates that the CQL policy improves system health by 22.97% and reduces throttling duration by 3.18%.

0 人收藏 0 人点赞

#99

A Comparative Study of Bayesian Contextual Bandits for Real-Time Warehouse Sorter Optimization

arXiv cs.LG ↗ · 3小时前缓存

This paper presents a comparative study of Bayesian Contextual Bandits, XGBoost, and Linear Regression for real-time sorter diversion optimization in e-commerce warehouses, showing BCB achieves 2.03% reward uplift with superior online learning and inference latency.

0 人收藏 0 人点赞

#100

Learning the Koopman Operator using Attention Free Transformers

arXiv cs.LG ↗ · 3小时前缓存

This paper introduces attention-free latent memory and dynamic re-encoding to improve long-horizon predictions in Koopman autoencoders, reducing error accumulation on benchmark dynamical systems.

0 人收藏 0 人点赞

热门

提交意见反馈