标签
初创公司创始人分享使用Fable 5后极大提升生产效率,一个月消耗100亿Token,团队规模从20人到2000人,产出创新高。
BohuTANG introduces /harden, a method for same-model two-round convergence, and highlights the evot agent engine which completes complex tasks with fewer tokens and lower cost than alternatives like Claude Code.
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
Unlimited OCR 引入了 Reference Sliding Window Attention,以消除长序列 OCR 任务中不断增长的内存消耗,从而能够在单次前向传播中高效转录多页文档。
PolicyTrim是一种基于强化学习的后训练框架,能将视觉-语言-动作模型的动作块利用率提升3倍,并将物理执行步骤减少51.4%,实现高达5.83倍的部署加速。
本文解释了在AI交互中使用循环的概念,即AI围绕一个目标进行迭代而非单次提示,并讨论了验证、状态和停止条件等关键组成部分。
GLM 5.2 提供了改进的令牌效率,让用户能够使用不到一半的令牌即可达到最高级别智能的98%。与资源密集型的‘最高’级别相比,模型的‘高’努力级别为日常使用提供了一个实用的替代方案。
一篇博客文章,讨论了系统中增加粒度(例如金融市场的最小变动单位和预订运动场地的时间段)如何引入策略性博弈和低效,认为更细化的选择并不总是有益的。
总部位于迈阿密的初创公司 Subquadratic 声称其新模型 SubQ 解决了二次注意力瓶颈问题,使大语言模型更快、更便宜。Appen 的独立测试证实了其中许多说法,但质疑依然存在。
本文提出了一种文本到音乐生成系统,利用奖励条件、专家迭代和偏好调优,在120M参数模型中提升音频质量,该模型提交至ICME 2026 ATTM Grand Challenge。
分析表明,用于AI训练的GPU经常处于闲置等待数据的状态,这让人质疑GPU短缺问题的严重性。
本文介绍了 LoopCoder-v2,一个 7B 代码模型,该模型从单次重新思考循环中获益最大;额外的循环会降低性能,挑战了‘更多测试时计算总是有帮助’的假设。
反思了企业AI自动化的混合影响,指出效率提升常被用作裁员的借口,而token预算可能造成浪费。同时提出了关于AI代理访问工作通信平台的数据隐私担忧。
Grouped Query Experts (GQE) 通过在分组查询注意力之上应用混合专家层来提高Transformer效率,每个token有选择地激活查询头,同时保持键值缓存优势,在2.5亿参数规模下,以一半的查询头计算量达到与基线相同的准确率。
本文介绍了Buddy AI,一个始终低算力的智能系统,旨在严格的计算限制下运行,专注于效率和基于事实的输出,而非扩展模型。
PreAct 将成功的智能体运行编译成小型状态机程序,在重复任务上实现 8.5-13 倍更快的重放,无需逐步骤的语言模型调用,并通过运行时屏幕检查确保正确性。
Ponytail是一个AI代理技能,通过强制代理先检查是否需要写新代码来大幅减少过度工程,声称能减少80-94%的代码量和42-75%的成本。作者推荐与Codex搭配使用,并已在GitHub上开源。
本文介绍了LoopCoder-v2,一个70亿参数的并行循环变换器系列,用于代码生成,并研究了最优循环次数,发现两个循环能带来显著提升,而更多循环则会导致性能下降。
PreAct 将计算机操控智能体的成功任务执行编译为小型状态机程序,通过跳过每步的语言模型调用,实现重复任务上的快速重放(快 8.5–13 倍),同时每一步验证屏幕状态,并在出现不匹配时回退到智能体。