large-language-models

#large-language-models

代码审查的终结：编码代理取代人工审查

Hacker News Top ↗ · 2小时前缓存

本文认为，基于LLM的编码代理已达到能力临界点，使人工代码审查变得多余，并提议用代理驱动的验证取代人工审查，以降低成本和延迟。

0 人收藏 0 人点赞

#large-language-models

Gemini与AI幻觉

Reddit r/artificial ↗ · 5小时前

讨论Google Gemini模型中的AI幻觉问题，突出大型语言模型在可靠性和准确性方面的挑战。

0 人收藏 0 人点赞

#large-language-models

AI是终极的胡说八道者

Reddit r/artificial ↗ · 16小时前

一篇观点文章，认为AI系统，尤其是大型语言模型，本质上是胡说八道者，因为它们生成看似合理但虚假的信息，既无理解也无欺骗意图。

0 人收藏 0 人点赞

#large-language-models

代理时代的因果发现

Hugging Face Daily Papers ↗ · 昨天缓存

本文认为，语言模型代理应通过提供上下文支持和解释来辅助因果发现工作流程，而非生成因果结论，并介绍了causal-learn+平台以演示这一原则。

0 人收藏 0 人点赞

#large-language-models

Qwen 27B 用于规划，Qwen 35B-A3B 用于执行？

Reddit r/LocalLLaMA ↗ · 2天前

讨论使用 Qwen 27B 进行规划任务，使用 Qwen 35B-A3B 进行执行任务，提出了一种专门的模型方法。

0 人收藏 0 人点赞

#large-language-models

@seclink: 分享清华大学语言处理实验室：欢迎博士后、研究员和实习生加入，你将有机会从事大模型前沿研究和开发，可根据研究兴趣自由选择。团队提供充足算力、数据、经费，以及具竞争力的薪资。加入科研团队，一起搞大模型！没有盈利和自负盈亏压力，只要做…

X AI KOLs Following ↗ · 2天前缓存

清华大学语言处理实验室招募博士后、研究员和实习生，从事大模型前沿研究与开发，提供充足算力、数据、经费和具竞争力薪资，专注科研与开源。

0 人收藏 0 人点赞

#large-language-models

@seclink: 美团最近开放了 AI浏览器 Tabbit 1.0 ，看来 perplexity 的 comet 也没啥门槛，随随便便就能做出一个一样（甚至更好）的产品。老印果然吹嘘多，实干少 ... https://meituan.com/news…

X AI KOLs Following ↗ · 2天前缓存

美团旗下GN06团队正式上线AI浏览器Tabbit 1.0，内置多款头部大模型，支持跨软件跨网页的复杂任务自动执行，并新增记忆功能。

0 人收藏 0 人点赞

#large-language-models

BIM-Edit：基于IFC的建筑信息模型的大语言模型基准测试

arXiv cs.AI ↗ · 3天前缓存

BIM-Edit是一个基准测试，用于评估大语言模型在IFC格式下对建筑信息模型（BIM）进行自然语言编辑的能力。结果显示存在显著差距，最佳模型在几何、语义和拓扑指标上的平均得分仅为49.5%。

0 人收藏 0 人点赞

#large-language-models

大型语言模型黑盒不确定性估计方法的系统性评估

arXiv cs.AI ↗ · 3天前缓存

本文对4种模型和4种数据集设置下的24种黑盒不确定性估计方法进行了系统性回顾和基准测试，发现没有任何单一方法占主导地位，但结合多种不确定性信号的混合方法表现出色。

0 人收藏 0 人点赞

#large-language-models

扩散语言模型：实验分析

arXiv cs.AI ↗ · 3天前缓存

一项系统性的实验分析，评估了八种最先进的扩散语言模型在多个基准测试上的表现，分析了生成质量与计算效率之间的权衡。

0 人收藏 0 人点赞

#large-language-models

更深并不总是更好：通过置信层解码缓解对齐损失

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了一种无需训练的编码策略——Confident Decoding，它利用熵引导搜索动态选择LLM中最可靠的中间层，从而缓解对齐损失，并在GPQA-Diamond、Omni-MATH等基准测试中提升了推理性能，且开销可忽略不计。

0 人收藏 0 人点赞

#large-language-models

@h100envy: Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上为 Grok 服务，运行在十万个 GPU 上。她还构建了 Fle…

X AI KOLs Timeline ↗ · 4天前缓存

Ying Sheng 共同撰写了 SGLang，该推理引擎现在在 xAI 上用十万个 GPU 为 Grok 服务，相比 DeepSeek 的 API 实现了 5 倍的成本削减；她还构建了 FlexGen，并参与构建了 Chatbot Arena。

0 人收藏 0 人点赞

#large-language-models

@seclink: https://x.com/seclink/status/2067968283492712846

X AI KOLs Following ↗ · 4天前缓存

本文基于研究者Victoria Lin的分享，系统梳理了原生多模态大模型的主流技术路线（Chameleon、Transfusion、MOT）及其优缺点，指出多模态AI仍处于早期探索阶段，存在缩放定律空白、图像理解与生成编码不统一、与物理世界对接等开放问题。

0 人收藏 0 人点赞

#large-language-models

@aiwithmayank：大型语言模型实际工作原理的最佳解释是一个免费的斯坦福讲座，而且它从一只老鼠吃奶酪开始……

X AI KOLs Timeline ↗ · 5天前缓存

一条推文推广了斯坦福大学的免费CS324课程，该课程关于大型语言模型，用一个老鼠吃奶酪的简单例子来解释LLM的工作原理，并包含交互式演示。

0 人收藏 0 人点赞

#large-language-models

如同火箭科学般简单：评估大语言模型理解比喻语言中否定表达的能力

arXiv cs.CL ↗ · 5天前缓存

本文研究了大语言模型如何处理否定与比喻语言的组合，发现这种组合构成了特殊挑战，且模型表现高度依赖于提示风格。作者为Fig-QA数据集新增了标注，并通过分析嵌入空间揭示了时态和具体性等额外语言因素的影响。

0 人收藏 0 人点赞

#large-language-models

SAGE：基于智能体引导的随机提示优化

arXiv cs.CL ↗ · 5天前缓存

介绍了SPO，一种用于自动提示优化的随机搜索框架，包含三种策略，其中包括SAGE，一种智能体引导的多智能体流水线。在基准测试上进行了评估，并部署在心理健康聊天机器人上，通过持续优化显示出在留存率方面的改进。

0 人收藏 0 人点赞

#large-language-models

大型语言模型中记忆缓解的输出向量编辑

arXiv cs.CL ↗ · 5天前缓存

提出输出向量编辑，一种约束优化的权重编辑方法，通过修改MLP神经元的输出向量而不是将激活归零来缓解LLM中的记忆化，实现了高达87.9%的抑制效果，且局部性失败极少。

0 人收藏 0 人点赞

#large-language-models

RegMix-D: 通过代理训练轨迹实现动态数据混合

arXiv cs.CL ↗ · 5天前缓存

RegMix-D 将 RegMix 扩展到动态数据混合，通过使用代理运行的损失轨迹来预测多个训练阶段的最优混合比例，相比静态方法取得了改进。

0 人收藏 0 人点赞

#large-language-models

错误的正确：量化和定位大语言模型中的误触发对齐

arXiv cs.CL ↗ · 5天前缓存

本文介绍了VETO，一个用于量化“误触发对齐”的基准测试，其中大语言模型因安全训练而避免做出正确推理，并发现所有测试模型都表现出此类失败，而人类则不会。

0 人收藏 0 人点赞

#large-language-models

PEC-Home：智能家居中递进省略命令的解释

arXiv cs.CL ↗ · 5天前缓存

本文介绍了PEC-Home，一个用于解释智能家居中递进省略命令的模拟家居数据集，并发现当前基于LLM的助手由于指代歧义和意图歧义而难以处理此类命令。

0 人收藏 0 人点赞

large-language-models

提交意见反馈