标签
SWE-WebDev Bench 是 arXiv 上的一篇论文,评测了 6 个主流 vibe coding 平台(Lovable、Replit Agent3、Vercel v0-Max、Base44、Emergent E1-OPUS、QwikBuild),发现所有平台工程综合分都没超过 60%,前端 UI 漂亮但后端、安全、生产就绪度集体翻车,需要 12-60 小时人工修复才能上线。
本研究论文探讨了代码检索中的文本改写策略,发现完全的自然语言改写能带来最大的性能提升。本文引入了基于熵的诊断方法,以帮助判断何时使用成本较高的 LLM 改写是有益的。
本文介绍了 DiffRetriever,这是一种利用扩散语言模型并行生成多个代表性令牌以实现高效信息检索的方法,在速度和准确率上均优于自回归基线方法。
研究人员分析了50个大语言模型在45份心理测量问卷上的表现,识别出一个“匹诺曹维度”(Pinocchio Dimension),该维度衡量模型如何认可内在体验,而非反映真实的人格特质。
作者分享了他为识别和评估公司内 AI 用例而构建的智能体研究系统的实际分解。该系统使用六个智能体进行发现、评估和上下文提取,强调人在决策环中,而非完全自主。
本文介绍了 SkillOS,这是一种强化学习框架,使大型语言模型智能体能够学习用于自进化的长期技能策展策略,从而提升任务性能与泛化能力。
UniPool 为混合专家(MoE)模型引入了一种共享专家池架构,在降低参数随深度增长的同时,相较于标准 MoE 基线提高了效率和性能。
Stream-T1 是一种针对流式视频生成提出的测试时扩展(TTS)框架,通过噪声传播和奖励剪枝等机制,提升了时间一致性和生成质量。该论文通过利用块级合成技术,解决了现有基于扩散模型的方法计算成本过高的问题。
APEX 是一个大规模的 multi-task learning 框架,利用冻结的音频嵌入来预测 AI 生成音乐的流行度和美学质量。该模型通过联合预测参与度信号和感知质量维度,在不同的生成架构上展现出了强大的泛化能力。
Andrew Ng 讨论了编码代理如何以不同速度加速不同类型的软件工作,其中前端开发受益最大,研究受益最小。
CoreAutoAI 推出 Core Automation,一套旨在优化并自动执行工作、率先聚焦研究流程的系统。
EchoChain 是一项全新基准测试,旨在评估 AI 模型在用户中途打断时修正正在进行中的回复的能力。该基准提炼出三种典型故障模式(上下文惯性、中断遗忘、目标偏移),结果表明,在当前评估的实时语音模型中,无一系统的通过率突破 50%。
研究人员提出了首个用于从社交媒体中进行多模态声明提取的基准,评估了最先进的多模态大语言模型,并引入了MICE——一个意图感知框架,在处理图文结合帖子中的修辞意图和上下文线索方面有所改进。
佛蒙特大学研究人员举办2×90分钟Agentic AI训练营,聚焦将Claude Code与Codex集成进科研与教学流程。
斯坦福与哈佛研究者指出,agentic AI 系统在现实部署中失败,并非因为“不够聪明”,而是某些根本性问题导致演示效果在实际场景中崩溃。
我尚未见到任何论文或真正的研究证据来支撑这一论点的任何一方。我希望能超越纯粹的主观意见来讨论这个问题。
英伟达AI研究副总裁Sanja Fidler断言Transformer并非AI的终局架构,指出当前模型训练成本过高、对海量数据依赖严重,需要在架构底层寻求新突破,新一代架构变种已开始涌现。
# 研究人员用量子计算机提升AI预测能力 来源:[https://www.cnet.com/tech/services-and-software/researchers-use-quantum-computer-to-improve-ai-predictions/](https://www.cnet.com/tech/services-and-software/researchers-use-quantum-computer-to-improve-ai-predictions/) 量子计算机协助AI模型完成在传统计算机上需数周才能算出的计算。 ![Julian Dossett头像](https://www.cnet.com/a/img/resize/e869742f773a9d41939ee253577b93
一位研究人员分享了用于 MLX 和 AI 研究的家用计算配置,包含配备 512GB 的 M3 Ultra、配备 96GB 的 RTX PRO 6000,以及用于模型移植与压力测试的配备 96GB 的 M3 Max。