标签
介绍ToolGrad,一个智能体框架,通过文本‘梯度’生成、评估和优化工具使用轨迹,达到近乎100%的通过率,降低数据集生成成本。已被ACL 2026接收。
开发者 @cjzafir 宣布推出 Finetuner.dev,一个 CLI 工具,利用 Codex 5.5 等编排模型以及中国模型生成高质量、手工精制的数据集,用于微调小语言模型(1B-30B),声称成本降低 10 倍,质量提升 5 倍。
本文介绍了一个数学论坛平台,该平台将图像到LaTeX的转换流程直接集成到发帖界面中,减少了用户的操作障碍。系统旨在生成一个经过社区验证的数学问题与解答数据集,用于训练AI推理系统。
一种利用贝叶斯概率上下文无关文法生成结构上类似物理方程的合成回归数据集的方法,该方法已在费曼语料库上得到验证,并证明对超参数调优有效。
TinyFish Bigset 是一个开源的多智能体系统,可将自然语言提示转换为来自实时网络的结构化数据集,具备模式推断、自主研究代理和定时刷新功能。它通过 Docker 自托管运行,并基于 TinyFish 的搜索基础设施构建。
一款新的小型AI模型——Qwopus 3.5-Coder 4B,被推荐作为本地代理团队中专业角色的候选,并具有微调和数据集生成的潜力。
一位开发者使用 Codex 5.5 作为编排器、Deepseek v4 pro 作为执行器,生成了一个 240M Token 的微调数据集,烧掉了 359M Token,成本仅为 78 美元。
本文描述了一个微调数据集生成流程,使用 Codex 5.5 作为编排器,Deepseek v4 Pro 作为生成器,通过自主质量门控和迭代改进,以低成本生成高质量合成数据。
本文提出了一种利用本地语法图(LGG)为韩语法律聊天机器人生成大规模、带标注训练数据集的方法,在使用 DIET 分类器时达到了 91% 的 F1 分数。
本文提出了一种基于证据的模型,可从无查询摘要数据集中自动生成查询关键词,从而创建查询聚焦摘要数据集。实验结果表明,使用基于证据的查询生成的摘要与原始查询生成的摘要相比,获得了具有竞争力的ROUGE分数。