标签
最近两篇arXiv论文发现,GPT-5.4和Claude Opus 4.6在处理陌生编程语言时采用元编程策略(用Python生成目标代码并本地调试),而非直接编写目标语言代码。这一策略是区分顶级和普通agent的关键,且策略精巧度比模型参数规模更重要。
本文提出了一种智能的热力学度量,定义为'rare-valid lift',并论证了递归自模拟对于高热力学智能是必要且近乎充分的,从而使智能可以在通用尺度上衡量。
一个本地优先的学术论文管理桌面应用 linXiv,支持 arXiV 等来源的论文发现、管理和可视化,集成 SQLite 数据库、AI 标注、Obsidian 笔记和论文网络图。
autoarxiv 让你只需将 URL 改为 autoarxiv.org,就能将任何 arxiv 论文转换为可运行代码。来自 alphaXiv 的 AI 代理会阅读论文、克隆仓库、配置依赖项,并运行最小复现来验证声明,实时记录所有内容。
本文评估了多智能体编排架构(DAG Plan and Execute、ReAct)在企业规模下的表现,并引入了一个任务管理器以实现持续的事件驱动操作,展示了在延迟和正确性方面的改进。
本文识别出由以人为中心的管道导致的人形机器人共语动作生成中的具身差距,并提出PhysDrift,一种具身感知框架,直接从语音预测可执行的人形机器人关节轨迹,改善了语音-动作对齐和物理合理性。
TelcoAgent是一个基于基础模型的框架,用于5G网络中可扩展且可解释的多KPM预测,利用自动化的3GPP知识图谱构建和时间序列基础模型进行零样本预测。
本文提出了一种基于全文内容分段的组合策略,用于自动分类学术论文中的研究方法。在来自图书馆与信息科学期刊的标注语料库上的实验表明,方法信息分布不均匀,中后段具有更高的区分能力。
本文介绍了RPCL,一种仅用于训练阶段的鲁棒配对置信度学习框架,用于多模态情感-原因配对提取。该框架改进了黄金配对与困难负例之间的判别性分离,并在三个数据集上的Pair F1和AUPRC指标上取得了显著提升。
VisualSkill 提出了一种层级化的多模态技能库,用于计算机使用智能体,结合文本与图像,通过在 GUI 交互中保留视觉信息,在 CUA 基准测试上相较于纯文本基线实现了 15.3 个百分点的绝对提升。
本文系统评估了关于LLM角色提示的假设,并识别出'角色流形坍缩'现象,即更丰富的角色描述会降低行为多样性和模拟逼真度。研究结果发现,简单的年龄-性别角色通常比更详细的档案表现更好。
QSignAI 是一个已生产部署的开源平台,它将来自 Toeplitz 双源提取器的量子随机性与 Telegram 上的 AI 机器人相结合,生成唯一的身份签名,展示了人工智能与量子科学之间的双向关系。
提出人机协同演化动力学框架(HACD-H),作为人机交互的形式化模型,整合了情感适应、关系组织、社会记忆和人格一致性。结果表明,社会智能源于长期社会认知协同演化。
Firecrawl发布了针对AI/ML论文的顶级研究索引,声称在arXivQA上召回率比竞争对手高出18%,专为自主研究代理设计。
MM++是一个完全无监督的事后分布外检测框架,通过Top-K门控特征融合融合具有判别性的中间层,并使用正则化的绑定协方差矩阵进行尺度不变距离估计。
这篇论文提出了Valid-Answer-Invalid-Reasoning (VAIR)基准测试,旨在揭示AI推理模型中的生成-评估差距,即模型可以生成正确答案,但无法检测出有缺陷的推理过程,暴露了答案确认偏差。
本文介绍了AdaMame,一种两阶段训练方案(SFT + GRPO),用于在多语言数学推理中自适应地将推理语言与查询语言对齐,在不牺牲准确性的情况下缓解语言崩溃。
HiDRA 是一种无需训练的方法,利用高维随机投影在大型语言模型中进行激活引导,能够捕捉超越线性方法的判别信号,并在多种模型系列和基准测试中持续优于现有基线。
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。