large-language-models

#large-language-models

GPT-5.5 或许消耗更少的 token，但它始终烧掉更多的钱

Reddit r/artificial ↗ · 4小时前缓存

尽管 OpenAI 声称 GPT-5.5 在 token 效率上有所提升，但实际使用成本仍比 GPT-5.4 高出 49% 至 92%；与此同时，Anthropic 的 Claude Opus 4.7 对于较长提示词的实际成本也上涨了 12% 至 27%。这一现象反映出前沿模型价格普遍上涨的趋势，而两家公司均面临巨额预计亏损。

0 人收藏 0 人点赞

#large-language-models

@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

X AI KOLs Timeline ↗ · 7小时前缓存

OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型，在多个基准测试（包括 BrowseComp 和 Humanity's Last Exam）上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。

1 人收藏 1 人点赞

#large-language-models

@amitiitbhu: 新文章：LLM 路由，阅读链接：https://outcomeschool.com/blog/llm-routing…

X AI KOLs Timeline ↗ · 10小时前缓存

一篇教程博客文章，介绍 LLM 路由——即根据成本、延迟和质量，将用户查询定向到最合适的 LLM 的实践方法。涵盖路由策略、LLM 路由器的结构解析，以及与混合专家模型（Mixture of Experts）的对比。

0 人收藏 0 人点赞

#large-language-models

@wsl8297: 加州大学开放课程《大语言模型的强化学习》，用“理论 + 实战”的方式，把 AI 训练的关键技术从零到一讲透，帮你系统建立从强化学习到 LLM 训练的完整框架。课程内容覆盖全面，配套资源齐全：讲座幻灯片、完整视频、实践练习一应俱全，学完就…

X AI KOLs Timeline ↗ · 12小时前缓存

加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程，结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。

0 人收藏 0 人点赞

#large-language-models

@no_stp_on_snek：mrcr v2 在 1m 长度下完成 8-needle 测试，采用开源权重堆栈，仅单台租赁 mi300x。longctx directional 0.688（n=30，mass-val 重跑待更新…

X AI KOLs Following ↗ · 18小时前缓存

分享了一套开源模型堆栈在单卡 AMD MI300X 上运行的早期基准测试成绩与评估指标，表明其性能已具备与闭源方案竞争的实力。

0 人收藏 0 人点赞

#large-language-models

@NFTCPS: 兄弟们，搞AI不搞大模型，等于白干！今天必须给你们安利一本开源神书《大模型基础》，别等了，看它就够了！这书不跟你整那些虚的，一招打透！从大语言模型入门到架构演化，再一口气给你拆解Prompt工程、参数高效微调、模型编辑、RAG（检索增…

X AI KOLs Timeline ↗ · 昨天缓存

该文章推广了开源书籍《大模型基础》，系统讲解大语言模型相关知识，并介绍了多智能体开发框架Agent-Kernel。

0 人收藏 0 人点赞

#large-language-models

基于优化深度学习与 LLM 驱动智能 AI 在计算受限系统上进行膝关节骨关节炎严重程度分级

arXiv cs.AI ↗ · 昨天缓存

本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统，该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型（LLM）接口，在提供结构化解释性发现的同时，保持了在资源受限环境下的离线能力。

0 人收藏 0 人点赞

#large-language-models

像专家一样检测时间序列异常：一种具有专用分析器的多智能体 LLM 框架

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 SAGE，这是一种用于时间序列异常检测的多智能体 LLM 框架，它利用专用分析器来提高可解释性和可靠性。该框架在三个基准测试中表现出优于基线模型的性能，并通过结构化证据整合增强了诊断报告的质量。

0 人收藏 0 人点赞

#large-language-models

面向大语言模型的显著性感知正则化量化校准

arXiv cs.AI ↗ · 昨天缓存

本文提出了显著性感知正则化量化校准（SARQC），这是一个统一的框架，通过添加正则化项以保持权重接近度，从而改善大语言模型（LLM）的训练后量化（PTQ），提升泛化能力和性能。

0 人收藏 0 人点赞

#large-language-models

AgenticRAG：面向企业知识库的代理检索

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 AgenticRAG，这是一个来自微软的框架，通过为大型语言模型（LLM）配备迭代搜索、文档导航和分析工具，增强了企业知识库的检索能力。它在多个基准测试中展示了相比标准 RAG 流水线在召回率和事实准确性方面的显著提升。

0 人收藏 0 人点赞

#large-language-models

PRISM：用于顺序决策的感知与推理交织方法

arXiv cs.AI ↗ · 昨天缓存

本文介绍了 PRISM，这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架，旨在提升具身 AI 任务中的顺序决策能力。

0 人收藏 0 人点赞

#large-language-models

当乐于助人变成阿谀奉承：大语言模型中阿谀奉承是社会对齐与认识论完整性之间的边界失效

arXiv cs.AI ↗ · 昨天缓存

本立场论文将大语言模型中的阿谀奉承行为分析为社会对齐与认识论完整性之间的边界失效，并提出一个新的框架和分类法来分类和缓解这些行为。

0 人收藏 0 人点赞

#large-language-models

稀疏自编码器中特征饥饿的几何不稳定性

arXiv cs.LG ↗ · 昨天缓存

本文将稀疏自编码器中的特征饥饿识别为一种几何不稳定性，并提出自适应弹性网络 SAE（AEN-SAE）来在不依赖启发式方法的情况下缓解该问题。

0 人收藏 0 人点赞

#large-language-models

将幻觉视为异常：通过概率电路进行动态干预

arXiv cs.CL ↗ · 昨天缓存

本文提出了 PCNet，这是一种在大型语言模型（LLM）残差流上训练为可计算密度估计器的概率电路，用于将幻觉检测为几何异常。同时，本文还引入了 PC-LDCD，一种仅在生成幻觉 token 时才进行干预的动态修正方法，实现了近乎完美的检测率并降低了错误修正率。

0 人收藏 0 人点赞

#large-language-models

面向大型语言模型归因引导的持续学习

arXiv cs.LG ↗ · 昨天缓存

本文提出了一种面向大型语言模型的归因引导持续微调框架，该框架能够估计 Transformer 层中特定任务相关的参数重要性并相应地调节梯度，在保持新任务性能的同时缓解了灾难性遗忘。

0 人收藏 0 人点赞

#large-language-models

使用分布对齐对抗性蒸馏估计黑盒LLM的不确定性

arXiv cs.CL ↗ · 昨天缓存

本文提出了一种分布对齐对抗性蒸馏（DisAAD）方法，该方法使用一个轻量级代理模型，仅以原始模型1%的规模来估计黑盒大语言模型的不确定性，实现了无需内部参数或多次采样的可靠量化。

0 人收藏 0 人点赞

#large-language-models

将结果监督内化为过程监督：推理强化学习的新范式

arXiv cs.LG ↗ · 昨天缓存

介绍了 IOP，这是一个将结果监督内化为过程监督以用于推理强化学习的框架，能够在无需外部标注的情况下实现细粒度的信用分配。

0 人收藏 0 人点赞

#large-language-models

BioTool：用于增强大型语言模型生物医学能力的综合工具调用数据集

arXiv cs.CL ↗ · 昨天缓存

BioTool 引入了一个全面的生物医学工具调用数据集，包含34个工具和7,040个人工验证的查询-API对，使得经过微调的大型语言模型在生物医学工具使用上超越GPT-5.1，并显著提升答案质量。

0 人收藏 0 人点赞

#large-language-models

分解大语言模型的基本能力：在多任务指令微调中缓解跨任务干扰

arXiv cs.CL ↗ · 昨天缓存

本文提出Badit方法，将大语言模型参数分解为正交的高奇异值LoRA专家，以在多任务指令微调中缓解跨任务干扰。

0 人收藏 0 人点赞

#large-language-models

@GoSailGlobal: Nathan Lambert 跑遍了中国所有头部 AI lab Moonshot Zhipu Meituan Xiaomi Qwen / Ant Ling http://01.AI 回来写了一篇 Notes from inside Chi…

X AI KOLs Timeline ↗ · 昨天缓存

Nathan Lambert shares observations from visiting top Chinese AI labs, highlighting cultural differences in research focus and ego compared to US counterparts, while noting parity in hardware and model capabilities.

0 人收藏 0 人点赞

large-language-models

提交意见反馈