标签
分析了 DiffusionGemma 的双向注意力和并行块生成如何由于其能够修正 token 的能力,可能产生更高的有效工具调用率,尽管其基础质量低于 Gemma 4。
讨论优化DiffusionGemma推理、减少幻觉以及提高工具使用和代理性能的多种方法,包括熵约束采样、模式脚手架和去噪期间的检索。
本文介绍了如何使用GRPO微调LLM(Qwen3-8B)以实现可靠的JSON结构化输出,将模式准确率从62%提升至82%,超越了GPT-4.1的58%。
通过受治理运行时处理市场数据的实时代理实验揭示了三个意外发现:提示结构比推理质量更能决定执行可靠性;结构化输出能够影响代理的决策;将推理和提取分离为两个调用可以维持高解析成功率。这些发现表明,治理应位于执行边界,而非自由形式的推理层。
六个强大但知名度较低的AI开发者工具列表:Instructor(用于结构化JSON输出)、Octopoda(用于智能体记忆)、E2B(安全沙箱)、Firecrawl(网站转Markdown)、Composio(应用集成)和LiteLLM(多模型API)。
本文提出了动态填充锚点(DIA),一种适用于扩散大语言模型的免训练方法。该方法通过动态估计终止锚点位置来强制执行格式约束(如可解析的 JSON、推理模板),同时避免了固定跨度方法的僵硬性。实验表明,DIA 在 GSM8K 和 MATH 基准测试上取得了显著的零样本性能提升。
这篇文章质疑为什么量化基准测试只关注困惑度和散文质量,而不考虑工具调用有效性,认为结构化输出由于有效token延续更少而更早退化,这可能会误导从业者对可用于智能体场景的量化级别的判断。
用户测试了 Gemma 4 2B 在本地通过 LM Studio 和 Spring AI 运行,用于结构化 JSON 输出、工具调用和推理轨迹,发现它正确识别了代码审查中的 Java 错误,并且性能与更大的模型相当。
作者详细介绍了使用小型本地模型(Qwen3.5 9B)结合结构化工作流和map-reduce模式来管理上下文限制、构建自定义智能体循环的经验,并已用其取代Claude Code处理大部分任务。
MaximeRivest解释了DSPy的五个核心组件——Optimizers、Signatures、LMs、Modules和Adapters——并认为有效的AI工程需要掌握这些要素,同时强调了结构化输出渲染这一常常被忽视的作用。
一位开发者梳理了 288 次本地模型运行中的 JSON 输出失败案例,发现了如 Markdown 代码块包裹和尾随逗号等常见问题,并开发了 outputguard,这是一个采用 15 种策略修复无效 JSON 的 Python 库。
LLM 0.32a0 对 Python 库和 CLI 工具进行了重大且向后兼容的重构,从简单的文本提示转变为支持消息序列和多部分响应,以更好地处理结构化 JSON 和工具调用等现代 LLM 功能。
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。
OpenAI 宣布为 GPT-4 和 GPT-3.5-turbo 模型推出函数调用功能,允许开发者通过 JSON Schema 描述函数,让模型智能地选择输出结构化 JSON 以集成外部工具。此次更新还将对旧版模型的支持延长至 2024 年 6 月,并改进了模型评估方法。