标签
本文介绍了TerminalWorld,这是一个基于80,870个终端记录构建的、用于在真实终端任务中评估AI智能体的基准。当前系统最高仅达到62.5%的通过率,凸显了真实终端工作流中的挑战。
关于如何构建可扩展且高效的生成式AI项目的指南,涵盖目录组织、配置、数据管理和代码结构。
本文介绍了用于图组合优化的投影智能体,采用强化学习和图神经网络,在连续动作嵌入空间中运行,以提升泛化能力和可扩展性,并发布了LaGCO-RL库。
本文提出了一种面向生产级文档AI管道的微服务架构,该架构结合了分类、OCR和LLM提取,分享了设计决策和批量分析洞察,揭示了OCR(而非LLM解析)主导了延迟。
文章认为,AI的真正挑战不仅在于构建更智能的模型,更在于以规模化的方式降低成本效率,强调了减少token使用、提升速度以及优化基础设施的重要性。
本文对 118 个 Transformer 模型进行了首次大规模实证分析,揭示了关键的性能墙,其中成功率从 512 token 时的 88.1% 下降到 2048 token 时的 0%,挑战了主流的缩放假设。
本文提出了NSPI,一种结合LLM与符号计算的神经符号框架,用于证明多项式不等式。它利用LLM生成的平方和猜想,通过符号计算进行精炼,并在Lean中形式化验证证明,在最多10个变量的多项式上展示了可扩展性。
作者创建了一个名为 agent-automation-creator 的仓库,这是一个用于构建和评估可靠、可扩展的AI自动化的框架,现寻求社区反馈。
团队在扩展OpenAI用量时面临理解每个功能、团队和客户的成本驱动因素的挑战,通常依赖手动记录或像Finout这样的工具进行成本分配和异常检测。
Browser Use 描述了隔离执行代码的 AI 代理的两种模式:隔离工具与隔离代理。他们使用 AWS 上的 Unikraft 微虚拟机实现了代理隔离模式,获得了安全、可扩展且一次性的沙箱。
本文介绍了一篇关于视觉 Transformer 弹性注意力核的新论文,提出了一种核心-外围块稀疏注意力结构,与 DINOv3 等密集自注意力方法相比,该结构提高了可扩展性和准确率。
本文介绍了LC-MAPF,一种带有可学习通信模块的预训练模型,用于多智能体路径规划,它改善了协调性,并在保持可扩展性的同时优于现有基于学习的求解器。
Interfaze 推出了一种混合 AI 模型架构,结合 CNN/DNN 的专项优势与 Transformer 能力,在 OCR 和翻译等确定性任务上实现卓越精度,同时在规模化应用中保持成本效率。
作者指出,Every 团队高度专注于 AGI,并认为基础设施是关键的瓶颈,预测随着 Claude 等模型的进步,这一问题将变得更加严峻。
前谷歌工程师发布了一张谷歌内部工具及其开源替代品的地图,为构建可扩展的基础设施提供了秘籍。
本文提出了节点-边策略分解(NEPF)方法,以解决多重图上车辆路径问题(VRP)的可扩展性难题。该方法结合了预编码边聚合与分层强化学习,在加快训练和推理速度的同时,实现了最先进的求解质量。
文章分析了使用 PostgreSQL 作为作业队列的可扩展性限制,特别强调了高并发下 MultiXact SLRU 争用导致的性能瓶颈。文章解释了为什么这种架构在开发环境中表现良好,但在生产环境中却会失败,并建议考虑替代方案。
Ben Dicken 强调,分片是构建可扩展数据库和设计数据密集型应用的关键。
OpenAI分享了如何使用AI重新设计其支持运营,每年处理数百万个请求,建立了一个每次交互都能改进下一次的运营模式。该方法整合了聊天、邮件和电话等多个渠道,持续改进知识库,并通过人工-AI评估循环使支持代表能够充当建设者并为产品改进提供信息。