论文

Cards List

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

X AI KOLs Timeline · 昨天 缓存

本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。

0 人收藏 0 人点赞

@amitiitbhu: https://x.com/amitiitbhu/status/2069023290182758497

X AI KOLs Timeline · 昨天 缓存

详细博客文章,解释Sakana Fugu技术报告,该报告介绍了将任务路由到专业模型以实现集体智能的编排器AI模型。

0 人收藏 0 人点赞

@arxivblog: 计算复杂性理论家证明引力必须量子化 https://arxivblog.substack.com/p/computational-comple…

X AI KOLs Timeline · 昨天 缓存

计算复杂性理论家认为,半经典引力中的非线性动力学将使得不可想象的强大计算成为可能,从而证明引力必须量子化。该论文利用薛定谔-牛顿方程表明,经典引力与量子物质耦合会导致计算矛盾。

0 人收藏 0 人点赞

NVIDIA的AI智能体教会机器人无需人类帮助将GPU安装到主板上

Reddit r/singularity · 昨天 缓存

NVIDIA与卡内基梅隆大学(CMU)和加州大学伯克利分校(UC Berkeley)共同开发的ENPIRE框架,利用AI编码智能体自主训练机器人执行高精度物理任务(如GPU安装),通过闭环反馈和真实硬件测试实现了99%的成功率。

0 人收藏 0 人点赞

@doctorveera: 巴基斯坦基因组资源(PGR),由 Danish Saleheen 创立,是全球最大的人类基因敲除数据库…

X AI KOLs Timeline · 昨天 缓存

《自然》杂志上来自巴基斯坦基因组资源(PGR)的一篇新论文分析了来自近亲社区的173,303名巴基斯坦人,识别出近三分之一蛋白质编码基因的人类基因敲除,推翻了诸如PRDM9对生育能力必需性等生物学假设。

0 人收藏 0 人点赞

@rohanpaul_ai: LLM 代理能否通过交互发现隐藏规则?答案令人不安。隐藏世界越复杂…

X AI KOLs Following · 昨天 缓存

本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。

0 人收藏 0 人点赞

@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…

X AI KOLs Timeline · 昨天 缓存

介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。

1 人收藏 1 人点赞

PivCo-Huffman “合并”操作

Lobsters Hottest · 昨天 缓存

这篇博客分析了PivCo-Huffman论文,该论文引入了并行Huffman解码的“合并”操作,无需交错开销即可实现高效的向量化和GPU友好解码。

0 人收藏 0 人点赞

能力强但粗心:计算机使用代理是否遵循情境完整性?

Hugging Face Daily Papers · 昨天 缓存

本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

Vera:一种用于保持内容一致性的分层扩散视频编辑模型

Hugging Face Daily Papers · 昨天 缓存

Vera 是一种分层扩散模型,专为视频编辑设计,通过生成编辑层和 Alpha 遮罩来保留源内容,并采用混合 Transformer(Mixture-of-Transformers)架构。

0 人收藏 0 人点赞

当代理过早承诺:诊断LLM代理的过早承诺

Hugging Face Daily Papers · 昨天 缓存

本文引入表征承诺,这是一种跨运行隐藏状态收敛,用于诊断LLM代理何时过早锁定了轨迹。研究表明,承诺预测轨迹一致性而非正确性,并提出了监控方法,用于检测代理何时自信地稳定下来,而不是假设一致性等于可信度。

0 人收藏 0 人点赞

Arbor:面向可控3D资产生成的显式几何条件化方法

Hugging Face Daily Papers · 昨天 缓存

Arbor通过使用约束网格(壳体、避让、接触区域)对潜在生成进行条件化,为3D资产生成引入了显式几何控制,在不牺牲物体质量的前提下提升了空间约束的遵从性。

0 人收藏 0 人点赞

HAKARI-Bench:在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers · 昨天 缓存

HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。

0 人收藏 0 人点赞

MeshFlow: 基于等变流匹配的网格生成

Hugging Face Daily Papers · 昨天 缓存

MeshFlow 引入了一种等变最优传输流匹配模型,用于直接生成三角形网格,在达到最先进质量的同时,相比自回归方法提供了约18倍的推理加速。

0 人收藏 0 人点赞

Foresight: 长时域机器人操作中基于动作条件的世界模型潜在表示的故障检测

Hugging Face Daily Papers · 昨天 缓存

Foresight 是一个用于长时域机器人操作的故障检测框架,它利用基于动作条件的世界模型潜在表示和功能性保形预测来监控轨迹,仅使用最终任务标签进行训练。在仿真和真实机器人任务中均展示了最先进的性能。

0 人收藏 0 人点赞

KaLM-Reranker-V1:快速而非延迟交互的压缩文档重排序

Hugging Face Daily Papers · 昨天 缓存

KaLM-Reranker-V1 是一种快速重排序模型,通过采用编码器-解码器架构,结合 Matryoshka 嵌入池化和交叉注意力机制,将查询与段落计算解耦,在 BEIR 上实现了最先进的重排序性能,并在多语言基准测试中取得了具有竞争力的结果。

0 人收藏 0 人点赞

通过速度编辑实现安全的少步生成

Hugging Face Daily Papers · 昨天 缓存

VESFlow 是一种无需训练的安全方法,用于基于流匹配的文本到图像生成,通过编辑速度场来确保安全输出,同时保持提示的完整性。

0 人收藏 0 人点赞

EnterpriseClawBench:基于真实工作会话的智能体基准测试

Hugging Face Daily Papers · 昨天 缓存

EnterpriseClawBench 提出了一个基于真实工作场景的企业智能体基准,包含 852 个可复现任务以及超越单一性能分数的综合评估指标。

0 人收藏 0 人点赞

代理时代的因果发现

Hugging Face Daily Papers · 昨天 缓存

本文认为,语言模型代理应通过提供上下文支持和解释来辅助因果发现工作流程,而非生成因果结论,并介绍了causal-learn+平台以演示这一原则。

0 人收藏 0 人点赞

基于全局地图与局部视图的多视角3D推理的密集奖励

Hugging Face Daily Papers · 昨天 缓存

DR-MV3D 提出了一种基于地图的强化学习框架,通过密集奖励来改进多视角3D视觉问答能力,其核心包括全局地图构建、视角轨迹规划和自我中心定位。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈