热门

综合热度、重要程度与时效排序的热门资讯。

Cards List
#81

打破过滤气泡:面向多目标推荐的语义Pareto-DQN框架

arXiv cs.AI · 3小时前 缓存

提出一种多目标强化学习框架,结合语义嵌入与Pareto-DQN,在推荐中平衡参与度、多样性和公平性,缓解过滤气泡问题。

0 人收藏 0 人点赞
#82

构建即忠实:基于主张锚定的多文档摘要归因

arXiv cs.CL · 3小时前 缓存

本文介绍了 CAMS,一个模块化的多文档摘要框架,它提取带有词元级来源的原子性主张,对等价主张进行聚类,并将其重写为具有细粒度、多源可追溯性的摘要,显著提升了忠实度和引用精度。

0 人收藏 0 人点赞
#83

基于约束流形控制的安全且可泛化的分层多智能体强化学习

arXiv cs.AI · 3小时前 缓存

本文提出了一种分层多智能体强化学习框架,该框架通过低层的约束流形强制执行硬安全约束,同时通过高层策略学习实现有效协调,提供了理论上的安全保障,并实现了近乎完美的安全率和良好的泛化能力。

0 人收藏 0 人点赞
#84

LLM归因指标能否迁移?跨数据集与构念的检索增强生成评估审计

arXiv cs.CL · 3小时前 缓存

本文对RAG系统在三种评估构念下的八种自动归因指标进行了审计,发现同一构念内没有单一指标能在数据集间迁移,挑战了将它们视为可互换的常见做法。

0 人收藏 0 人点赞
#85

一年后...伤害依旧,但我们仍在!

arXiv cs.CL · 3小时前 缓存

本研究评估了六种专有大型语言模型(LLMs)在16种DSM-5病症中通过对抗性攻击的表现,发现安全防护措施仅对自杀和自伤可靠,而对进食障碍、物质使用障碍等其他病症的失败率高达100%。

0 人收藏 0 人点赞
#86

智能体模型批判

arXiv cs.AI · 3小时前 缓存

本文批判了当前的AI智能体系统,区分了外在脚手架(agentic)和内在化(agentive)系统,并提出了目标-身份-配置器(GIC)架构,用于构建具有内生能力的通用智能体模型,同时提供了关于安全性和可控性的见解。

0 人收藏 0 人点赞
#87

Neuro-Symbolic Drive: Rule-Grounded Faithful Reasoning for Driving VLAs

arXiv cs.AI · 3小时前 缓存

介绍了Neuro-Symbolic Drive,一个使用来自经典规划器的基于规则推理轨迹来微调驾驶VLA(Qwen3.5-4B)的框架,与标准CoT推理相比,显著降低了平均位移误差和漏检率。

0 人收藏 0 人点赞
#88

先定位后排序:重新审视基于知识的VQA中的免训练实体识别

arXiv cs.CL · 3小时前 缓存

本文提出了一种免训练的“先识别后回答”(IBA)框架,用于基于知识的视觉问答(KB-VQA),该框架将实体识别与证据排序解耦,在降低复杂度的同时优于微调的多模态检索增强生成基线。

0 人收藏 0 人点赞
#89

RIFT-Bench:面向智能体AI系统的动态红队测试方法

arXiv cs.AI · 3小时前 缓存

RIFT-Bench是一种新的基准测试方法论,用于对智能体AI系统进行动态红队测试,通过图表示统一不同架构的安全性评估,并支持自动化发现和扫描漏洞。

0 人收藏 0 人点赞
#90

量化RAG系统中的先验主导性

arXiv cs.CL · 3小时前 缓存

本文介绍了归一化上下文利用(NCU)指标,用于量化RAG系统中上下文信息的增益。该指标挑战了规模定律,表明在严格的事实提取中,小语言模型由于较低的“先验主导性”可以与更大模型匹敌甚至更优,并且一个商业API在对抗性设置中经常覆盖外部证据。

0 人收藏 0 人点赞
#91

EXPO-SQL:基于执行的子句级策略优化用于Text-to-SQL

arXiv cs.CL · 3小时前 缓存

EXPO-SQL 提出了一种细粒度的子句级策略优化方法用于 Text-to-SQL,通过执行反馈为每个子句而不是每个查询分配奖励,显著提升了性能,优于现有的监督微调和强化学习方法。

0 人收藏 0 人点赞
#92

@FinanceYF5: a16z 的 Josh Elman 表示,Roblox 一代会期待能够重新混搭他们使用的所有软件: “我们有一代孩子正在长大,他们是在 Minecraft 和 Roblox 中成长起来的。他们习惯了玩那种可以由自己控制世界的游戏。” “他…

X AI KOLs Following · 2小时前 缓存

a16z 的 Josh Elman 表示,在 Roblox 和 Minecraft 中长大的孩子们会期待能重新混搭和控制他们使用的所有软件,这种趋势将影响未来的产品设计。

0 人收藏 0 人点赞
#93

说到那些中国芯片……“中国超级计算机自2017年以来首次取代美国机器成为世界最快”

Reddit r/LocalLLaMA · 3小时前 缓存

中国的LineShine超级计算机成为世界最快的计算机,自2017年以来首次取代美国的El Capitan,标志着高性能计算排名的重大转变。

0 人收藏 0 人点赞
#94

An LLM-based Two-Stage Transformer Framework for Cross-Domain Bearing Fault Diagnosis with Limited Data

arXiv cs.LG · 3小时前 缓存

Proposes a knowledge-guided two-stage transfer learning framework using a lightweight GPT-2-style Transformer for cross-domain bearing fault diagnosis with limited data, achieving 92.61% accuracy with only 10% labeled data.

0 人收藏 0 人点赞
#95

Managing Task Execution for Unknown Workloads in Batteryless IoT: A Hardware-Agnostic Evaluation

arXiv cs.LG · 3小时前 缓存

This paper proposes two hardware-agnostic dynamic scheduling strategies (a model-free reinforcement learning agent and an on-the-fly approximated prediction method) for managing task execution in batteryless IoT devices with unknown workloads, and evaluates them against existing approaches using a simulation framework with real-world solar data.

0 人收藏 0 人点赞
#96

Lightweight Transformer Models for On-Device Fault Detection: A Benchmark Study on Resource-Constrained Deployment

arXiv cs.LG · 3小时前 缓存

A benchmark study comparing traditional machine learning methods (Random Forest, XGBoost, SVM, Logistic Regression) against lightweight transformer variants (DistilBERT, TinyBERT, MobileBERT) for on-device fault detection across three public datasets. Traditional ML offers competitive accuracy at far smaller resource footprints, while TinyBERT-4L is the most deployment-friendly transformer.

0 人收藏 0 人点赞
#97

Blockwise Policy-Drift Gating for On-Policy Distillation

arXiv cs.LG · 3小时前 缓存

This paper introduces blockwise policy-drift gating, a lightweight method to improve on-policy distillation for language models by weighting loss based on old-current student probability shifts, achieving improved reasoning accuracy on math benchmarks.

0 人收藏 0 人点赞
#98

Offline Reinforcement Learning for Warehouse SLAM Throughput Control

arXiv cs.LG · 3小时前 缓存

This paper presents an offline reinforcement learning framework for optimizing SLAM throughput control in warehouse fulfillment environments, balancing throughput maximization with downstream stability. The approach is algorithm-agnostic and demonstrates that the CQL policy improves system health by 22.97% and reduces throttling duration by 3.18%.

0 人收藏 0 人点赞
#99

A Comparative Study of Bayesian Contextual Bandits for Real-Time Warehouse Sorter Optimization

arXiv cs.LG · 3小时前 缓存

This paper presents a comparative study of Bayesian Contextual Bandits, XGBoost, and Linear Regression for real-time sorter diversion optimization in e-commerce warehouses, showing BCB achieves 2.03% reward uplift with superior online learning and inference latency.

0 人收藏 0 人点赞
#100

Learning the Koopman Operator using Attention Free Transformers

arXiv cs.LG · 3小时前 缓存

This paper introduces attention-free latent memory and dynamic re-encoding to improve long-horizon predictions in Koopman autoencoders, reducing error accumulation on benchmark dynamical systems.

0 人收藏 0 人点赞
← 上一页
下一页 →
← 返回首页

提交意见反馈