OpenSimula —— 在 AfterImage 中开源实现 Simula 风格机制设计的合成数据方案 [P]

Reddit r/MachineLearning 2026/04/23 13:01 工具

摘要

OpenSimula 是 Simula 机制设计范式的开源 Python 实现，用于可控合成数据生成，现已集成进 AfterImage 数据集工具。

r/MachineLearning 的朋友们，我们刚刚把 **OpenSimula** 集成进开源数据集工具 **AfterImage**：这是 **Simula** 机制设计配方（Davidson 等，TMLR，[PDF](https://openreview.net/pdf?id=NALsdGEPhB)；亦可参考 [研究博客](https://research.google/blog/designing-synthetic-datasets-for-the-real-world-mechanism-design-and-reasoning-from-first-principles/)）的实验性 Python 实现。 **想解决的问题：** 某些 SFT/评测场景里，重点不是“一条 prompt → 一条回答”，而是如何在推理空间内实现可控的多样性：有哪些变化维度、如何联合采样、以及如何在写进 JSONL 前对生成结果做压力测试。 **代码干了啥（高层视角）：** LLM 构建的**因子分类体系** → 按权重混合采样 → **元 prompt** 多样化（+可选复杂化）→ **需求评审**循环并精修 → 可选**双重评审**关卡，用于**可验证 MCQ**。产出物是带版本的 `opensimula/` 检查点（清单、分类体系包、采样策略）以及追加式 JSONL。你可以接入我们常用的 `GenerationMonitor` 来观测生成指标，或通过小回调把场景桥接到 `ConversationGenerator`。 **硬免责声明（请务必阅读）：** * 这不是 Google 产品，也不是任何内部实现的官方移植——只是我们对论文公开配方的理解。 * API 明确为实验性质，随时可能变动。 * 如果去掉分类体系宽度/深度上限，成本与延迟会爆炸；宽树意味着大量结构化调用，除非手动调参。 * 这里的“机制设计”只是结构化数据生成流程，并不能神奇地解决模型坍缩或老师模型拉胯的问题。 **代码与文档：** * 完整仓库：[https://github.com/altaidevorg/afterimage](https://github.com/altaidevorg/afterimage) * Simula 示例：[https://github.com/altaidevorg/afterimage/tree/main/examples/simula](https://github.com/altaidevorg/afterimage/tree/main/examples/simula) * 快速概览：[https://afterimage.altai.dev/opensimula.html](https://afterimage.altai.dev/opensimula.html) * API 文档：[https://afterimage.altai.dev/api/simula.html](https://afterimage.altai.dev/api/simula.html) 真心期待大家的反馈！

查看原文

OpenSimula —— 在 AfterImage 中开源实现 Simula 风格机制设计的合成数据方案 [P]

相似文章

SimFoundry：模块化与自动化场景生成用于策略学习与评估

OdysSim：构建人类行为模拟的基础模型

设计合成讨论生成系统：在线引导案例研究

DataArc-SynData-Toolkit：用于多路径、多模态和多语言数据合成的统一闭环框架

OpenRTLSet: 一个用于基于大语言模型的Verilog模块设计的完全开源数据集

提交意见反馈