论文

Cards List

VibeThinker: 在推理上击败Opus 4.5的3B参数模型,采用新颖的SFT+GRPO方法

Hacker News Top · 22小时前 缓存

本技术报告介绍了VibeThinker-3B,一个3B参数的密集模型,在AIME26和LiveCodeBench等基准测试上实现了前沿水平的推理性能,通过结合基于课程的SFT、多领域RL和离线自蒸馏,匹配或超越了DeepSeek V3.2和GLM-5等更大的模型。

0 人收藏 0 人点赞

智能的热力学度量

Reddit r/singularity · 23小时前 缓存

本文提出了一种智能的热力学度量,定义为'rare-valid lift',并论证了递归自模拟对于高热力学智能是必要且近乎充分的,从而使智能可以在通用尺度上衡量。

0 人收藏 0 人点赞

提示注入即角色混淆

Simon Willison's Blog · 昨天 缓存

研究论文表明,大语言模型存在'角色混淆'问题,即它们优先考虑文本风格而非实际的角色标签,从而使得提示注入攻击成为可能。去风格化文本将攻击成功率从61%降低到10%,这表明大语言模型安全性面临一项根本性挑战。

0 人收藏 0 人点赞

来自太空的神秘重复射电信号的来源已被确定

Wired · 昨天 缓存

一个国际研究团队确定了一个神秘重复射电信号的来源——一颗从伴星红矮星吸取物质的白矮星,解决了一个长期存在的天文学谜题。

0 人收藏 0 人点赞

@Ankur_Samanta_: 在多步推理强化学习后训练中关于信用分配的新工作 介绍自重置策略优化 (SRPO…

X AI KOLs Timeline · 昨天 缓存

自重置策略优化 (SRPO) 通过在多步推理强化学习后训练中定位第一个错误的推理步骤并从中学习反事实延续,而无需外部监督,来解决信用分配问题。

0 人收藏 0 人点赞

提示注入即角色混淆

Hacker News Top · 昨天 缓存

本文提出一种理论,认为对大型语言模型的提示注入攻击源于模型在角色感知上的根本缺陷——将角色视为语言的类型系统。该理论解释了现有攻击,预测了新型攻击,并提出了关于角色科学的研究议程。

0 人收藏 0 人点赞

Attention Is All You Need

Reddit r/ArtificialInteligence · 昨天

对里程碑式论文《Attention Is All You Need》的反思,着重说明了如何通过去除循环并完全依赖注意力机制彻底改变了人工智能,并催生了像GPT和Claude这样的现代大语言模型。

0 人收藏 0 人点赞

修订版:新编写代码中受AI生成和审查影响的估计比例

Reddit r/singularity · 昨天

本文修订了由AI生成或审查的新编写代码的估计比例,并分析了其对软件开发的影响。

0 人收藏 0 人点赞

@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2069064122218717387

X AI KOLs Timeline · 昨天 缓存

本文探讨了AI代理如何利用微软研究院的SkillOpt等技术自动编写和优化其技能文件,该技术将技能文档视为可训练状态,并带来显著的性能提升。文章还解决了手动技能调优的挑战,并介绍了GEPA和EvoSkill等进化方法的框架。

0 人收藏 0 人点赞

@amitiitbhu: https://x.com/amitiitbhu/status/2069023290182758497

X AI KOLs Timeline · 昨天 缓存

详细博客文章,解释Sakana Fugu技术报告,该报告介绍了将任务路由到专业模型以实现集体智能的编排器AI模型。

0 人收藏 0 人点赞

@arxivblog: 计算复杂性理论家证明引力必须量子化 https://arxivblog.substack.com/p/computational-comple…

X AI KOLs Timeline · 昨天 缓存

计算复杂性理论家认为,半经典引力中的非线性动力学将使得不可想象的强大计算成为可能,从而证明引力必须量子化。该论文利用薛定谔-牛顿方程表明,经典引力与量子物质耦合会导致计算矛盾。

0 人收藏 0 人点赞

NVIDIA的AI智能体教会机器人无需人类帮助将GPU安装到主板上

Reddit r/singularity · 昨天 缓存

NVIDIA与卡内基梅隆大学(CMU)和加州大学伯克利分校(UC Berkeley)共同开发的ENPIRE框架,利用AI编码智能体自主训练机器人执行高精度物理任务(如GPU安装),通过闭环反馈和真实硬件测试实现了99%的成功率。

0 人收藏 0 人点赞

@doctorveera: 巴基斯坦基因组资源(PGR),由 Danish Saleheen 创立,是全球最大的人类基因敲除数据库…

X AI KOLs Timeline · 昨天 缓存

《自然》杂志上来自巴基斯坦基因组资源(PGR)的一篇新论文分析了来自近亲社区的173,303名巴基斯坦人,识别出近三分之一蛋白质编码基因的人类基因敲除,推翻了诸如PRDM9对生育能力必需性等生物学假设。

0 人收藏 0 人点赞

@rohanpaul_ai: LLM 代理能否通过交互发现隐藏规则?答案令人不安。隐藏世界越复杂…

X AI KOLs Following · 昨天 缓存

本文研究了LLM代理是否可以通过交互推断隐藏的世界模型,发现随着复杂性的增加,它们难以构建稳定的内部模型。

0 人收藏 0 人点赞

@VukRosic99: 测试时强化学习 1. 获取一个未标注的问题 2. 从LLM中采样多个答案 3. 多数投票 → t…

X AI KOLs Timeline · 昨天 缓存

介绍了测试时强化学习(TTRL),一种利用未标注数据上的多数投票创建伪标签以进行强化学习训练的方法,使LLM能够在不依赖真实答案的情况下自我改进。在AIME 2024上取得了显著提升(例如,Qwen-2.5-Math-7B提升159-211%)。

1 人收藏 1 人点赞

PivCo-Huffman “合并”操作

Lobsters Hottest · 昨天 缓存

这篇博客分析了PivCo-Huffman论文,该论文引入了并行Huffman解码的“合并”操作,无需交错开销即可实现高效的向量化和GPU友好解码。

0 人收藏 0 人点赞

ShotcreteDepth:喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

Hugging Face Daily Papers · 2天前 缓存

ShotcreteDepth是一个包含来自施工环境的立体RGB和LiDAR数据的双模态数据集,旨在支持在挑战性条件下进行深度感知研究。该数据集包含11,252个样本,其中220个已标注,并附带一个轻量级标注工具。

0 人收藏 0 人点赞

TROPT:一个统一和推进离散文本优化的开放框架

Hugging Face Daily Papers · 2天前 缓存

TROPT是一个开源框架,统一了离散文本触发优化,标准化了在LLM越狱和模型可解释性等领域中的开发与执行。它包含超过15种优化器和30个配方,降低了采用和推进的门槛。

0 人收藏 0 人点赞

能力强但粗心:计算机使用代理是否遵循情境完整性?

Hugging Face Daily Papers · 2天前 缓存

本文介绍了AgentCIBench,一个用于评估计算机使用代理隐私风险的基准测试,发现15个前沿代理中有11个在超过50%的场景中泄露信息。

0 人收藏 0 人点赞

Vera:一种用于保持内容一致性的分层扩散视频编辑模型

Hugging Face Daily Papers · 2天前 缓存

Vera 是一种分层扩散模型,专为视频编辑设计,通过生成编辑层和 Alpha 遮罩来保留源内容,并采用混合 Transformer(Mixture-of-Transformers)架构。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈