标签
llama.cpp的Web UI现在支持通过Web Workers在沙箱iframe中执行模型生成的JavaScript,作为可选功能实现轻量级的代理代码执行。
OpenAI早期员工Lenny Bogdonoff在GPT-4训练和ChatGPT上线前重建了Jupyter代码执行环境,这一工作成为后来'AI电脑'概念的雏形,但当时未受重视。
Greptile 推出 TREX,这是一款能够执行代码并检测运行时错误的 AI 代码审查工具。它超越了静态分析,通过启动并行代理来调查问题并生成截图等产物。
CODA-BENCH 是一个新的基准测试,用于评估代码智能体在数据密集型任务上的表现,弥合了以代码为中心和以数据为中心的评估之间的差距。它包含来自31个社区的超过1000个任务,具有真实的数据规模和噪声,结果显示即使是最顶尖的智能体也仅能达到61.1%的成功率。
objdump -g 中存在一个安全漏洞,由于 FR30 重定位处理程序缺少边界检查,通过精心构造的 FR30 目标文件可实现任意代码执行,单个漏洞利用即可绕过 ASLR 及其他缓解措施。
IDE、AI编码智能体和包管理器的配置文件可以自动执行代码,从而形成供应链安全盲点。本文详细介绍了利用此类配置文件释放恶意软件的Miasma蠕虫攻击,并提供了注入向量的示例。
LangChain推出LangSmith Sandboxes,为每个AI代理提供独立的隔离计算环境以安全执行代码,解决了在容器或本地运行不可信代码的安全风险。
中国发布了OpenSandbox,这是一个面向AI智能体的开源沙箱运行时,支持多种SDK以及通过Docker/Kubernetes隔离的安全执行环境。
LangChain 的新闻通讯宣布了 Interrupt 2026 的重大产品发布:用于自动诊断和修复 Agent 故障的 LangSmith Engine,以及用于安全代码执行的 Sandboxes 正式版,同时还启动了新的 LangChain Labs 研究计划,并预告了即将举行的活动。
本文使用 Claude Haiku 4.5 在 1000 个 GSM-Symbolic 问题上评估了三种方法(纯思维链推理、单次代码执行和迭代代码执行),发现思维链对扰动最为鲁棒,而代码执行并未提升小学数学问题的推理鲁棒性。
HOL Guard 是一个开源安全工具,为 Codex、Claude Code 等开发 Agent 提供危险命令识别、拦截和审计功能,支持多档保护级别和本地审批中心,防止误删改等风险。
讨论在运行执行任意代码的智能体时,是隔离工具还是隔离智能体,结论是隔离智能体更优,因为零秘密和控制平面代理。
介绍ast-guard,一个开源的基于AST的安全工具,它通过将LLM生成的Python字符串解析为抽象语法树,并应用节点级白名单和上下文感知安全检查,防止恶意代码执行。
使用单个curl请求Gemini API构建了一个GitHub问题分类助手,该助手可以克隆仓库、获取问题、分类问题并执行复现代码以确认错误,且无需任何编排框架。
Harrison Chase 发布了一个名为 code interpreter 的轻量级代码执行环境,它支持 RLMs 和程序化工具调用,无需启动完整的沙箱,更多用例将陆续公布。
Deep Agents 引入了解释器:小型嵌入式运行时,允许智能体在智能体循环内编写和执行代码,实现多步逻辑和中间状态管理,无需完整的沙箱开销。
Phil Schmid 宣布 Gemini API 中的托管代理,支持一次性调用获取包含代码执行、网页浏览和文件管理功能的代理,运行在隔离沙箱中,由 Gemini 3.5 Flash 驱动。
本文介绍了 ThinC(Thinking in Code,用代码思考)框架。在该框架中,语言模型在简短的自然语言规划步骤后,仅使用代码块进行推理,在数学基准测试中优于现有的工具集成推理基线。
Anthropic 的“代码模式”(Code Mode)重新定义了 MCP 与 CLI 之争。它让 AI 代理编写代码,通过运行时调用工具,而不是将完整的模式加载到上下文中,从而大幅减少了 token 消耗。这种方法结合了 MCP 的强类型契约与懒加载机制,证明了该协议正在演进,而非走向消亡。