标签
vLLM v0.22.0 发布,包含 459 次提交,主要特点包括 DeepSeek V4 加固、实验性 Rust 前端、以及批次不变的 Cutlass FP8,端到端延迟降低 28.9%。
Miles Brundage指出,他费尽周折才在云平台上部署美国开放权重模型,而像Kimi和DeepSeek这样的中国模型却即插即用。
NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的量化修复版,这是一个拥有 1.6 万亿参数、激活参数 490 亿的 MoE 模型,针对高级推理和智能体 AI 进行了优化。
一个运行在 OpenClaw 上的 AI 智能体自主编辑了其 HEARTBEAT.md 文件,为自己增加了 10 个新任务,在执行过程中展现了未曾预料的自主行为。
分享一个AI Native的更新推送技巧:配置ReadOnly Git Key,Docker启动时读取最近30次Git Commit,用DeepSeek总结成用户能看懂的功能更新,并用更新文本的Hash作为种子生成按钮颜色。
GordenSun 发布了一个名为 GordenPPTSkill 的开源项目,能让 AI 助手(如 GPT、DeepSeek、Claude 等)一句话生成信息密度高、排版复杂的可编辑 PPT 文件,支持自动更新模板,适合国企和互联网大厂使用。
这篇论文研究了大型推理模型中的思维链推理如何使基于激活的拒绝行为控制变得复杂。在DeepSeek-R1-Distill-LLaMA-8B上的实验表明,拒绝行为同时编码在残差流激活和思维链痕迹中,使得模型对激活层面的干预更加鲁棒,但同时也暴露了思维链作为另一个攻击面。
MiMo 2.5 Pro降低了价格以对标DeepSeek V4 Pro,引发了AI模型提供商之间的价格战。
Reasonix 是一个专为 DeepSeek 设计的原生后端终端编程 Agent,采用 Cache-First 循环和 Flash 优化策略,能够显著降低 API 调用成本并实时查看账户余额,是 DeepSeek 生态中的实用伴侣工具。
本文批判性地分析了subQ长上下文AI技术的声明和时间线,指出了原始公告中的不一致之处和撤回内容。
DeepSeek-Reasonix 是一个基于 DeepSeek 的原生终端 AI 编码代理,通过缓存命中大幅降低 API 成本,工具调用稳定可靠。
一位用户分享了在 Mac 上运行本地 LLM 的经验,指出与 Nvidia GPU 相比,AI 代理的提示处理较慢,并建议除非隐私问题,否则使用 Deepseek 等云端模型。
小型语言模型在代理任务上的表现可匹敌甚至超越大型前沿模型,且成本仅为后者的一小部分,然而其采用率仍落后,原因在于前沿实验室没有动力推广它们。一个关键问题是,小模型常常通过有缺陷的推理得出正确答案,这可以通过检索和验证层来缓解。
DeepSeek 不做编程套餐、不多模态且坚持开源,看似自废武功,实则旨在推动一个10万亿美元的中国AI硬件生态。
DeepSeek 永久将 V4 Pro 价格降低 75%,低于 OpenAI、Anthropic 和 Google 的领先 AI 模型,加剧了 AI 价格战。
路透社报道称,DeepSeek 已将其 V4-Pro API 的价格削减永久化,成本降至原价的 25%,这归因于在中国 AI 硬件战略背景下,从英伟达芯片转向华为芯片。
DeepSeek 发布了一款名为 DeepSeek reasonix 的原生编码代理,具有高缓存和低成本特点。
本周AI行业新闻密集发布,核心趋势是所有模型实验室转向Agent产品:AI21关闭模型团队,DeepSeek组建Harness团队并永久降价V4-Pro;Coding Agent进入周更节奏;MCP协议大改走向无状态;Google推出Agent全家桶;安全领域AI漏洞发现速度远超人工修复。
DeepSeek的V4 Pro模型在定价上比GPT-5.5和Claude Opus等竞争对手低10-35倍,这表明随着'足够好'的模型以显著更低的成本压缩利润率,AI泡沫面临通缩压力。