cost-efficiency

标签

Cards List
#cost-efficiency

@ClementDelangue:路由和后训练开源模型不仅能让你的系统更准确,还能显著提升速度并降低成本……

X AI KOLs Following · 2026-06-03 缓存

讨论路由和后训练开源模型如何在准确性、速度和成本上超越前沿模型。Harvey与Fireworks AI的合作表明,混合法律代理在质量和成本上均优于前沿模型。

0 人收藏 0 人点赞
#cost-efficiency

@LangChain: https://x.com/LangChain/status/2061864647884464430

X AI KOLs Following · 2026-06-02 缓存

LangChain和Harvey的一项研究探索了通过分批标准评估和使用开源模型来降低验证法律代理输出成本的方法,实现了数量级的成本节约,同时保持了接近前沿的性能。

0 人收藏 0 人点赞
#cost-efficiency

我刚刚根据DeepSWE基准数据创建了一份详细报告

Reddit r/singularity · 2026-06-01

对DeepSWE基准数据的分析揭示了模型之间令人惊讶的成本和性能差异,GPT 5.5在能力和成本效率方面领先,而开放权重模型每次通过的成本可能很高。

0 人收藏 0 人点赞
#cost-efficiency

@datacurve: Opus 4.8 现已登陆 DeepSWE。在默认高思考投入设置下,其得分比 Opus 4.7 xhigh 高出6%,同时还能降低…

X AI KOLs Following · 2026-05-30 缓存

Opus 4.8 现已可在 DeepSWE 上使用,得分比 Opus 4.7 高出6%,并降低了每任务平均成本。

0 人收藏 0 人点赞
#cost-efficiency

@VraserX: GPT-5.5 依然是王者。GPT-5.5 以几乎一半的成本和大约两倍的速度碾压 Claude Opus 4.8。OpenAI …

X AI KOLs Timeline · 2026-05-30 缓存

一条推文声称,OpenAI 的 GPT-5.5 以近乎一半的成本和双倍的速度表现优于 Claude Opus 4.8,宣称 OpenAI 在 AI 领域继续保持统治地位。

0 人收藏 0 人点赞
#cost-efficiency

StepFun称Step 3.7 Flash以九分之一成本达到Claude Opus 4.6编码性能的97%

Reddit r/ArtificialInteligence · 2026-05-30 缓存

StepFun的Step 3.7 Flash是一款198B稀疏MoE模型,活跃参数11B,在SWE-Bench Verified上以约九分之一的成本达到Claude Opus 4.6编码性能的97%。该模型采用Advisor Mode策略,将昂贵的前沿模型调用保留给关键决策点。

0 人收藏 0 人点赞
#cost-efficiency

重新思考逐步模型路由:一种面向表格推理的成本高效视角

arXiv cs.CL · 2026-05-29 缓存

本文提出EcoTab,一种表格感知的逐步路由框架,分别估计表格标记和文本标记的不确定性,以动态地在小型和大型模型之间路由推理步骤,在表格推理任务上实现了更好的准确性与效率权衡。

0 人收藏 0 人点赞
#cost-efficiency

'一刀切'式AI时代已终结。我实测了GPT-5.5、Claude 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro——以下是最新前沿格局。

Reddit r/ArtificialInteligence · 2026-05-26

对GPT-5.5、Claude Opus 4.7、Gemini 3.1 Pro和DeepSeek V4 Pro的基准测试分析表明,没有单一模型在所有任务上占据优势;要实现最佳性能,需要采用多模型路由器,根据各模型的优势与弱点进行专门化使用。

0 人收藏 0 人点赞
#cost-efficiency

小模型代理栈为何未能成为默认选择,与它们能否工作无关

Reddit r/LocalLLaMA · 2026-05-25

小型语言模型在代理任务上的表现可匹敌甚至超越大型前沿模型,且成本仅为后者的一小部分,然而其采用率仍落后,原因在于前沿实验室没有动力推广它们。一个关键问题是,小模型常常通过有缺陷的推理得出正确答案,这可以通过检索和验证层来缓解。

0 人收藏 0 人点赞
#cost-efficiency

)

TLDR AI · 2026-05-25 缓存

DeepSeek 永久将 V4 Pro 价格降低 75%,低于 OpenAI、Anthropic 和 Google 的领先 AI 模型,加剧了 AI 价格战。

0 人收藏 0 人点赞
#cost-efficiency

DeepSeek刚刚戳破了美国AI泡沫。

Reddit r/ArtificialInteligence · 2026-05-24

DeepSeek的V4 Pro模型在定价上比GPT-5.5和Claude Opus等竞争对手低10-35倍,这表明随着'足够好'的模型以显著更低的成本压缩利润率,AI泡沫面临通缩压力。

0 人收藏 0 人点赞
#cost-efficiency

专业化胜过规模化:大多数AI采购决策忽略的一个战略变量

Hugging Face Blog · 2026-05-22 缓存

本文认为,在特定企业领域,专业小型模型可以以极低的成本超越更大的前沿模型,并以DharmaOCR模型作为案例研究。它强调了训练历史与部署任务的一致性如何使参数数量不再起决定性作用。

0 人收藏 0 人点赞
#cost-efficiency

使用五款中文编码大模型一个月后,M3真的会登顶吗?

Reddit r/ArtificialInteligence · 2026-05-22

一位用户分享了一个月内在TypeScript/Next.js代码库上对五款中文编码大模型(Kimi K2.6、GLM-5.1、MiMo V2.5 Pro、MiniMax 2.7、DeepSeek V4 Pro)的比较,从前端、后端、代码审查、全能型和推理等类别进行评分。他们指出MiniMax 2.7以约7%的成本实现了Opus 4.6约90%的质量,并推测即将推出的MiniMax 3.0是否会弥补规划和测试覆盖方面的不足,从而登上榜首。

0 人收藏 0 人点赞
#cost-efficiency

HyDRA: 面向异构LLM池的混合动态路由架构

arXiv cs.CL · 2026-05-19 缓存

HyDRA是一种面向异构LLM池的混合动态路由架构,能够预测每个查询的细粒度能力需求,并通过不足匹配选择最便宜且能力满足需求的模型,在保持质量的同时实现高达72.5%的成本节省。该架构已部署于GitHub Copilot的VS Code Chat自动模式,并将路由与模型目录解耦,模型变更时无需重新训练。

0 人收藏 0 人点赞
#cost-efficiency

开放智能体排行榜

Hugging Face Blog · 2026-05-18 缓存

IBM Research 发布了开放智能体排行榜,这是一个开放的基准测试和评估框架,用于基于质量和成本比较完整的 AI 智能体系统,旨在衡量跨多样化任务的通用性。

1 人收藏 1 人点赞
#cost-efficiency

@mikotossd0106: 感觉deepseek 每次的性能都是准一流的,每次离御三家差一点但是又差的不多,倒逼御三家疯狂堆算力拉开差距,结果没过多久deepseek 又带着一堆破铜烂铁追上来了

X AI KOLs Timeline · 2026-05-17

评论指出DeepSeek每次模型性能都接近顶级AI公司(御三家),迫使它们大量投入算力以保持领先,但DeepSeek随后又能以低成本方案再次追赶上来。

0 人收藏 0 人点赞
#cost-efficiency

Depthfirst声称其AI发现了Anthropic的Mythos系统遗漏的关键漏洞,成本仅为Anthropic的Mythos模型的十分之一。

Reddit r/singularity · 2026-05-16

网络安全初创公司Depthfirst声称,其AI模型发现了Anthropic的Mythos系统遗漏的关键漏洞,以十分之一的成本实现了相同的结果。

0 人收藏 0 人点赞
#cost-efficiency

@umi33563: 终于读到了。这意义重大,因为它解锁了许多之前因成本过高而无法实现的长尾用例。我…

X AI KOLs Following · 2026-05-13

Modal的基础设施现在实现了对稀疏工作负载的成本高效执行,解锁了长尾AI用例,这些用例之前因计算资源利用率低导致成本过高而难以实现。

0 人收藏 0 人点赞
#cost-efficiency

@埃万·卢斯拉:Kimi K2 的训练成本仅为 460 万美元。据报道,GPT-5 耗资数亿美元。Kimi 在编程方面依然击败了它。上周…

X AI KOLs Timeline · 2026-05-13

Kimi K2 以 460 万美元的训练成本,在编程基准测试中击败了 GPT-5 和 Claude Opus 4.7,其创始人还提供了详细的技术解析。

0 人收藏 0 人点赞
#cost-efficiency

我们使用 LLM 分析代码库中的每一个文件。所有人都认为这是出于成本考虑的一个愚蠢想法,但事实并非如此。

Reddit r/ArtificialInteligence · 2026-05-12

一项基准研究表明,使用 LLM 分析整个代码库具有成本效益。DeepSeek V4 Flash 因其低成本以及与 Claude Opus 等高端选项相当的准确率,被确定为最佳默认模型。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈