cost-savings

标签

Cards List
#cost-savings

@tolak_eth: 我想分享一下我们是如何避免每年花费约16万美元来托管拥有完整1M上下文的GLM-5.2。当GLM-5.2推出时……

X AI KOLs Timeline · 18小时前 缓存

Phala通过将MoE专家量化至4位并保留关键部分为FP8/BF16,在单个8×H200节点上实现了与FP8基线相同的基准测试结果,从而避免了每年16万美元的GLM-5.2完整1M上下文托管成本,并在Hugging Face上发布了优化后的模型GLM-5.2-W4AFP8。

0 人收藏 0 人点赞
#cost-savings

福特在人工智能表现不佳后重新聘请‘灰胡子’工程师

TechCrunch AI · 5天前 缓存

福特公司在人工智能和自动化质检系统未能达到预期后,重新聘请了350名资深‘灰胡子’工程师,此举带来了10亿美元的成本削减,并获得了J.D. Power最高质量评级。

0 人收藏 0 人点赞
#cost-savings

为什么企业开始采用 SKILL.md 而不是只依赖 AI 工具?

Reddit r/AI_Agents · 2026-06-23

本文讨论了 SKILL.md 在定义可复用 Agent 技能方面的日益普及,并探讨了与仅依赖 ChatGPT、Claude 等 AI 工具相比,它在离线使用、标准化、工作流以及成本节约等方面的优势。

0 人收藏 0 人点赞
#cost-savings

使用rtk、headroom和caveman削减LLM Token成本——基于实际工作负载测量的节省

Reddit r/LocalLLaMA · 2026-06-18 缓存

对三个旨在降低编码代理LLM Token成本的开源工具(rtk、headroom和caveman)的详细分析,发现实际节省远低于声称值。

0 人收藏 0 人点赞
#cost-savings

@robertnishihara: 关于PD分离的一些直觉——PD不会加速预填充,实际上可能损害TTFT——PD的真正…

X AI KOLs Following · 2026-06-17 缓存

这篇来自Anyscale的博客文章解释了LLM服务中Prefill-Decode(PD)分离的直觉,展示了如何将预填充和解码阶段分配到专用GPU上,在使用Ray和vLLM的AMD MI325X上实现高达2.7倍的有效吞吐量提升和67%的成本节省,同时也讨论了PD分离何时没有帮助。

0 人收藏 0 人点赞
#cost-savings

Anthropic在IPO前面临AI支出反弹(3分钟阅读)

TLDR AI · 2026-06-03

Anthropic在IPO前面临企业对高额AI支出的反弹,调查显示大多数企业成本节省微乎其微,更便宜的替代方案威胁其收入。

0 人收藏 0 人点赞
#cost-savings

@kylejeong: OpenClaw 可以利用 Autobrowse 为任意工作流创建并持续优化技能。以下是一个 Craigslist 数据抓取的示例……

X AI KOLs Timeline · 2026-05-08 缓存

OpenClaw 借助 Autobrowse 对工作流进行迭代优化,在 Craigslist 数据提取任务中经过 5 次迭代实现了 68% 的速度提升和 91% 的成本节省。AI 智能体还自主发现了一个暴露的接口端点,进一步优化了页面导航效率。

0 人收藏 0 人点赞
#cost-savings

Qwen 3.6 其实很适合 vibe-coding,而且比 Claude 便宜多了

Reddit r/LocalLLaMA · 2026-04-23

用户展示了在本地使用 llama-server 运行 Qwen 3.6 27B/35B,将 Claude Code 的 API 成本从 142 美元降至 8 小时 vibe-coding 会话不到 4 美元,4500 美元的双 RTX 3090 设备可在 30 天内回本。

0 人收藏 0 人点赞
#cost-savings

@DeRonin_:发现这些 GitHub 仓库后,每月在付费 AI 工具上省下 855 美元的生活

X AI KOLs Following · 2026-04-22 缓存

一条推文提到,通过发现可替代付费 AI 工具的开源 GitHub 仓库,每月节省了 855 美元。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈