标签
本文提出了 SkillLens,这是一种用于大模型智能体自适应多粒度技能复用的分层框架,在基准任务中展示了更高的准确性和成本效益。
作者探讨了使用开源工具 OpenCode 结合 DeepSeek V4 Pro 作为 Claude Code CLI 的替代方案,旨在以更具成本效益的方式实现智能体自动化和“氛围编程”。
一位用户质疑 Codex 中 GPT-5.5 相较于 GPT-5.4 的 Token 效率,分析了 Artificial Analysis 的图表,并称赞了 Cursor 的 Token 表现。
本文介绍了 PaT(试错后规划),这是一种用于代码生成的自适应测试时计算策略,在保持与更大模型相当的性能的同时,将推理成本降低了约 69%。
一位开发者宣布,由于 Anthropic 高昂的 token 成本以及 GPT 5.5 带来的效率提升,其 16 人的工程团队将从 Anthropic 转向 GitHub Copilot(Codex)和 Cursor。
本文探讨了 OpenRouter 上推出的 Ring-2.6-1T 新模型,重点介绍了其自适应推理能力,以及其在编程智能体和复杂工作流中的适用性。
DeepSeek是一款由中国量化对冲基金开发的AI模型,据报道其训练成本仅为GPT-4的约5%,却能达到相当的性能水平,引发了市场剧烈震荡,导致NVIDIA单日市值蒸发6000亿美元。目前已有人发布了一门时长1小时50分钟的免费课程,教用户如何在本地及通过API使用DeepSeek V4。
本文比较了领域训练的小型语言模型(Olava Extract)与前沿LLMs在结构化合同提取中的表现,结果显示该专业化模型获得了更高的F1分数且成本显著降低。
一条推文称,在自定义数据上微调的小型视觉语言模型准确率可媲美GPT-5,成本却低50倍,并举例Liquid AI的1.6B模型可用llama.cpp本地全速运行。
TRACER是一个开源系统,它在LLM分类端点的生产追踪数据上训练轻量级机器学习代理,并通过一个一致性门控路由请求,仅当代理与原始模型的一致性超过指定阈值时才激活代理。该方法在意图分类基准上实现了83-100%的代理覆盖率,同时保持了对处理边界和故障模式的可解释性。
Google 推出 Gemini 3.1 Flash-Lite,这是一款高速、高性价比的 AI 模型,现可通过 Google AI Studio 和 Vertex API 预览使用,专为高并发开发者工作负载而设计。
W-RAC 提出了一种针对 RAG 系统中网页文档处理的经济高效的分块框架,通过结构化内容表示和检索感知的分组决策,将 LLM 令牌使用量降低一个数量级。该方法将文本提取与语义分块规划解耦,在实现与传统分块方法相当或更好的检索性能的同时,最大限度地降低了幻觉风险。