cost-efficiency

标签

Cards List
#cost-efficiency

SkillLens:面向成本高效型大模型智能体的自适应多粒度技能复用

arXiv cs.AI · 2026-05-12 缓存

本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。

0 人收藏 0 人点赞
#cost-efficiency

OpenCode + DeepSeek V4 Pro 对比 Claude Code CLI?🤔

Reddit r/AI_Agents · 2026-05-12

作者探讨了使用开源工具 OpenCode 结合 DeepSeek V4 Pro 作为 Claude Code CLI 的替代方案,旨在以更具成本效益的方式实现智能体自动化和“氛围编程”。

0 人收藏 0 人点赞
#cost-efficiency

关于 GPT-5.5 的效率,我是不是漏看了什么?

Reddit r/singularity · 2026-05-11

一位用户质疑 Codex 中 GPT-5.5 相较于 GPT-5.4 的 Token 效率,分析了 Artificial Analysis 的图表,并称赞了 Cursor 的 Token 表现。

0 人收藏 0 人点赞
#cost-efficiency

PaT:试错后规划,实现高效的测试时代码生成

arXiv cs.CL · 2026-05-11 缓存

本文介绍了 PaT(试错后规划),这是一种用于代码生成的自适应测试时计算策略,在保持与更大模型相当的性能的同时,将推理成本降低了约 69%。

0 人收藏 0 人点赞
#cost-efficiency

@morganlinton:正式取消我们的 Anthropic 计划,我们 16 人的小型工程团队将转向 Codex + Cursor。Anthropic 适合预算……

X AI KOLs Following · 2026-05-09

一位开发者宣布,由于 Anthropic 高昂的 token 成本以及 GPT 5.5 带来的效率提升,其 16 人的工程团队将从 Anthropic 转向 GitHub Copilot(Codex)和 Cursor。

0 人收藏 0 人点赞
#cost-efficiency

有人尝试过 OpenRouter 上新推出的 1T 模型(限时免费一周)吗?Ring-2.6-1T 在实际工作中的表现如何?

Reddit r/AI_Agents · 2026-05-09

本文探讨了 OpenRouter 上推出的 Ring-2.6-1T 新模型,重点介绍了其自适应推理能力,以及其在编程智能体和复杂工作流中的适用性。

0 人收藏 0 人点赞
#cost-efficiency

@cyrilXBT:中国刚刚打造了一款AI模型,以极低成本与OpenAI和Anthropic正面竞争。而且有人刚刚发布了一门免费课程……

X AI KOLs Timeline · 2026-05-09

DeepSeek是一款由中国量化对冲基金开发的AI模型,据报道其训练成本仅为GPT-4的约5%,却能达到相当的性能水平,引发了市场剧烈震荡,导致NVIDIA单日市值蒸发6000亿美元。目前已有人发布了一门时长1小时50分钟的免费课程,教用户如何在本地及通过API使用DeepSeek V4。

0 人收藏 0 人点赞
#cost-efficiency

一些好条款:比较LLMs与领域训练的小型语言模型在结构化合同提取中的表现

arXiv cs.CL · 2026-05-08 缓存

本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。

1 人收藏 1 人点赞
#cost-efficiency

@paulabartabajo_:给AI工程师的建议——在自定义数据上微调的小型视觉语言模型,准确率堪比GPT-5……

X AI KOLs Timeline · 2026-04-22 缓存

一条推文称,在自定义数据上微调的小型视觉语言模型准确率可媲美GPT-5,成本却低50倍,并举例Liquid AI的1.6B模型可用llama.cpp本地全速运行。

0 人收藏 0 人点赞
#cost-efficiency

TRACER:基于追踪的自适应成本高效路由用于LLM分类

Hugging Face Daily Papers · 2026-04-16 缓存

TRACER是一个开源系统,它在LLM分类端点的生产追踪数据上训练轻量级机器学习代理,并通过一个一致性门控路由请求,仅当代理与原始模型的一致性超过指定阈值时才激活代理。该方法在意图分类基准上实现了83-100%的代理覆盖率,同时保持了对处理边界和故障模式的可解释性。

0 人收藏 0 人点赞
#cost-efficiency

Gemini 3.1 Flash-Lite:为大规模智能而生

Google DeepMind Blog · 2026-03-03 缓存

Google 推出 Gemini 3.1 Flash-Lite,这是一款高速、高性价比的 AI 模型,现可通过 Google AI Studio 和 Vertex API 预览使用,专为高并发开发者工作负载而设计。

0 人收藏 0 人点赞
#cost-efficiency

Web Retrieval-Aware Chunking (W-RAC):高效且经济高效的检索增强生成系统分块方法

Hugging Face Daily Papers · 2026-01-08 缓存

W-RAC 提出了一种针对 RAG 系统中网页文档处理的经济高效的分块框架,通过结构化内容表示和检索感知的分组决策,将 LLM 令牌使用量降低一个数量级。该方法将文本提取与语义分块规划解耦,在实现与传统分块方法相当或更好的检索性能的同时,最大限度地降低了幻觉风险。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈