标签
本文认为,基于LLM的编码代理已达到能力临界点,使人工代码审查变得多余,并提议用代理驱动的验证取代人工审查,以降低成本和延迟。
一篇观点文章,认为AI系统,尤其是大型语言模型,本质上是胡说八道者,因为它们生成看似合理但虚假的信息,既无理解也无欺骗意图。
本文认为,语言模型代理应通过提供上下文支持和解释来辅助因果发现工作流程,而非生成因果结论,并介绍了causal-learn+平台以演示这一原则。
讨论使用 Qwen 27B 进行规划任务,使用 Qwen 35B-A3B 进行执行任务,提出了一种专门的模型方法。
清华大学语言处理实验室招募博士后、研究员和实习生,从事大模型前沿研究与开发,提供充足算力、数据、经费和具竞争力薪资,专注科研与开源。
美团旗下GN06团队正式上线AI浏览器Tabbit 1.0,内置多款头部大模型,支持跨软件跨网页的复杂任务自动执行,并新增记忆功能。
BIM-Edit是一个基准测试,用于评估大语言模型在IFC格式下对建筑信息模型(BIM)进行自然语言编辑的能力。结果显示存在显著差距,最佳模型在几何、语义和拓扑指标上的平均得分仅为49.5%。
本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试,发现没有任何单一方法占主导地位,但结合多种不确定性信号的混合方法表现出色。
一项系统性的实验分析,评估了八种最先进的扩散语言模型在多个基准测试上的表现,分析了生成质量与计算效率之间的权衡。
本文介绍了一种无需训练的编码策略——Confident Decoding,它利用熵引导搜索动态选择LLM中最可靠的中间层,从而缓解对齐损失,并在GPQA-Diamond、Omni-MATH等基准测试中提升了推理性能,且开销可忽略不计。
Ying Sheng 共同撰写了 SGLang,该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务,相比 DeepSeek 的 API 实现了 5 倍的成本削减;她还构建了 FlexGen,并参与构建了 Chatbot Arena。
本文基于研究者Victoria Lin的分享,系统梳理了原生多模态大模型的主流技术路线(Chameleon、Transfusion、MOT)及其优缺点,指出多模态AI仍处于早期探索阶段,存在缩放定律空白、图像理解与生成编码不统一、与物理世界对接等开放问题。
一条推文推广了斯坦福大学的免费CS324课程,该课程关于大型语言模型,用一个老鼠吃奶酪的简单例子来解释LLM的工作原理,并包含交互式演示。
本文研究了大语言模型如何处理否定与比喻语言的组合,发现这种组合构成了特殊挑战,且模型表现高度依赖于提示风格。作者为Fig-QA数据集新增了标注,并通过分析嵌入空间揭示了时态和具体性等额外语言因素的影响。
介绍了SPO,一种用于自动提示优化的随机搜索框架,包含三种策略,其中包括SAGE,一种智能体引导的多智能体流水线。在基准测试上进行了评估,并部署在心理健康聊天机器人上,通过持续优化显示出在留存率方面的改进。
提出输出向量编辑,一种约束优化的权重编辑方法,通过修改MLP神经元的输出向量而不是将激活归零来缓解LLM中的记忆化,实现了高达87.9%的抑制效果,且局部性失败极少。
RegMix-D 将 RegMix 扩展到动态数据混合,通过使用代理运行的损失轨迹来预测多个训练阶段的最优混合比例,相比静态方法取得了改进。
本文介绍了VETO,一个用于量化“误触发对齐”的基准测试,其中大语言模型因安全训练而避免做出正确推理,并发现所有测试模型都表现出此类失败,而人类则不会。
本文介绍了PEC-Home,一个用于解释智能家居中递进省略命令的模拟家居数据集,并发现当前基于LLM的助手由于指代歧义和意图歧义而难以处理此类命令。