dataset-generation

#dataset-generation

@Zhongyi_Zhou_: ML通过数学梯度优化；循环工程需要文本“梯度”！介绍ToolGrad：一个智能体框架…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

介绍ToolGrad，一个智能体框架，通过文本‘梯度’生成、评估和优化工具使用轨迹，达到近乎100%的通过率，降低数据集生成成本。已被ACL 2026接收。

0 人收藏 0 人点赞

#dataset-generation

@cjzafir：在 Claude Fable 5 被禁之前，我把我所有的微调研究和实验变成了一个产品：http://Finetuner…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

开发者 @cjzafir 宣布推出 Finetuner.dev，一个 CLI 工具，利用 Codex 5.5 等编排模型以及中国模型生成高质量、手工精制的数据集，用于微调小语言模型（1B-30B），声称成本降低 10 倍，质量提升 5 倍。

0 人收藏 0 人点赞

#dataset-generation

面向协作问题求解与AI推理数据集生成的数学论坛平台

arXiv cs.AI ↗ · 2026-06-12 缓存

本文介绍了一个数学论坛平台，该平台将图像到LaTeX的转换流程直接集成到发帖界面中，减少了用户的操作障碍。系统旨在生成一个经过社区验证的数学问题与解答数据集，用于训练AI推理系统。

0 人收藏 0 人点赞

#dataset-generation

Synthics: 用于机器学习的类物理合成数据集

arXiv cs.LG ↗ · 2026-06-08 缓存

一种利用贝叶斯概率上下文无关文法生成结构上类似物理方程的合成回归数据集的方法，该方法已在费曼语料库上得到验证，并证明对超参数调优有效。

0 人收藏 0 人点赞

#dataset-generation

TinyFish Bigset 将文本提示转换为实时数据集（3分钟阅读）

TLDR AI ↗ · 2026-06-03 缓存

TinyFish Bigset 是一个开源的多智能体系统，可将自然语言提示转换为来自实时网络的结构化数据集，具备模式推断、自主研究代理和定时刷新功能。它通过 Docker 自托管运行，并基于 TinyFish 的搜索基础设施构建。

0 人收藏 0 人点赞

#dataset-generation

@mr_r0b0t：我毫不掩饰地认为，专业的小型模型是高效本地代理团队的一部分。下面这个模型肯定会加入我的团队……

X AI KOLs Timeline ↗ · 2026-05-30 缓存

一款新的小型AI模型——Qwopus 3.5-Coder 4B，被推荐作为本地代理团队中专业角色的候选，并具有微调和数据集生成的潜力。

0 人收藏 0 人点赞

#dataset-generation

@cjzafir: 359M Token 在 72 小时内烧掉。成本：约 78 美元。结果：新的 240M 微调数据集。过程：> Codex 5.5 作为编排器。…

X AI KOLs Timeline ↗ · 2026-05-14 缓存

一位开发者使用 Codex 5.5 作为编排器、Deepseek v4 pro 作为执行器，生成了一个 240M Token 的微调数据集，烧掉了 359M Token，成本仅为 78 美元。

0 人收藏 0 人点赞

#dataset-generation

@cjzafir: 这是我的微调数据集生成流程：> Codex 5.5 作为编排器 > Deepseek v4 Pro 作为生成器简而言之…

X AI KOLs Timeline ↗ · 2026-05-13

本文描述了一个微调数据集生成流程，使用 Codex 5.5 作为编排器，Deepseek v4 Pro 作为生成器，通过自主质量门控和迭代改进，以低成本生成高质量合成数据。

0 人收藏 0 人点赞

#dataset-generation

使用本地语法图为韩语法律聊天机器人生成训练数据集

arXiv cs.CL ↗ · 2026-05-11 缓存

本文提出了一种利用本地语法图（LGG）为韩语法律聊天机器人生成大规模、带标注训练数据集的方法，在使用 DIET 分类器时达到了 91% 的 F1 分数。

0 人收藏 0 人点赞

#dataset-generation

从无查询摘要数据集生成查询聚焦摘要数据集

arXiv cs.CL ↗ · 2026-05-08 缓存

本文提出了一种基于证据的模型，可从无查询摘要数据集中自动生成查询关键词，从而创建查询聚焦摘要数据集。实验结果表明，使用基于证据的查询生成的摘要与原始查询生成的摘要相比，获得了具有竞争力的ROUGE分数。

0 人收藏 0 人点赞

dataset-generation

提交意见反馈