OpenSimula —— 在 AfterImage 中开源实现 Simula 风格机制设计的合成数据方案 [P]
摘要
OpenSimula 是 Simula 机制设计范式的开源 Python 实现,用于可控合成数据生成,现已集成进 AfterImage 数据集工具。
r/MachineLearning 的朋友们,我们刚刚把 **OpenSimula** 集成进开源数据集工具 **AfterImage**:这是 **Simula** 机制设计配方(Davidson 等,TMLR,[PDF](https://openreview.net/pdf?id=NALsdGEPhB);亦可参考 [研究博客](https://research.google/blog/designing-synthetic-datasets-for-the-real-world-mechanism-design-and-reasoning-from-first-principles/))的实验性 Python 实现。
**想解决的问题:** 某些 SFT/评测场景里,重点不是“一条 prompt → 一条回答”,而是如何在推理空间内实现可控的多样性:有哪些变化维度、如何联合采样、以及如何在写进 JSONL 前对生成结果做压力测试。
**代码干了啥(高层视角):** LLM 构建的**因子分类体系** → 按权重混合采样 → **元 prompt** 多样化(+可选复杂化)→ **需求评审**循环并精修 → 可选**双重评审**关卡,用于**可验证 MCQ**。产出物是带版本的 `opensimula/` 检查点(清单、分类体系包、采样策略)以及追加式 JSONL。你可以接入我们常用的 `GenerationMonitor` 来观测生成指标,或通过小回调把场景桥接到 `ConversationGenerator`。
**硬免责声明(请务必阅读):**
* 这不是 Google 产品,也不是任何内部实现的官方移植——只是我们对论文公开配方的理解。
* API 明确为实验性质,随时可能变动。
* 如果去掉分类体系宽度/深度上限,成本与延迟会爆炸;宽树意味着大量结构化调用,除非手动调参。
* 这里的“机制设计”只是结构化数据生成流程,并不能神奇地解决模型坍缩或老师模型拉胯的问题。
**代码与文档:**
* 完整仓库:[https://github.com/altaidevorg/afterimage](https://github.com/altaidevorg/afterimage)
* Simula 示例:[https://github.com/altaidevorg/afterimage/tree/main/examples/simula](https://github.com/altaidevorg/afterimage/tree/main/examples/simula)
* 快速概览:[https://afterimage.altai.dev/opensimula.html](https://afterimage.altai.dev/opensimula.html)
* API 文档:[https://afterimage.altai.dev/api/simula.html](https://afterimage.altai.dev/api/simula.html)
真心期待大家的反馈!
相似文章
SimFoundry:模块化与自动化场景生成用于策略学习与评估
SimFoundry 是一个模块化系统,可从视频自动化真实到仿真场景构建,生成数字孪生体并保留功能属性的变体,用于零样本机器人策略训练,实现了向真实世界任务的强迁移和高仿真到真实性能预测。
OdysSim:构建人类行为模拟的基础模型
OdysSim对人类行为模拟的行为基础模型进行了系统研究,引入了Soul分类法、一个包含2140万次交互的语料库以及一种训练方法,该方法在23个基准任务中的8个上达到了最先进水平,同时生成更类人的输出。
设计合成讨论生成系统:在线引导案例研究
本文介绍了合成讨论生成(SDG),一种新颖的NLP框架,用于创建模拟讨论,从而在社会科学研究中实现低成本的预实验。作者证明,较小的量化模型(7B-8B参数)可以以比GPT等专有模型低44倍的成本生成有效的模拟,并将该框架应用于评估在线讨论中的LLM引导者。
DataArc-SynData-Toolkit:用于多路径、多模态和多语言数据合成的统一闭环框架
本文介绍了 DataArc-SynData-Toolkit,这是一个开源框架,旨在简化多路径、多模态和多语言合成数据的生成。它通过统一的、基于配置的流水线,旨在降低技术门槛并提高在训练大型语言模型过程中的可用性。
OpenRTLSet: 一个用于基于大语言模型的Verilog模块设计的完全开源数据集
OpenRTLSet推出了最大的完全开源硬件设计数据集,包含超过131,000个Verilog代码样本,支持对LLM进行微调以用于Verilog代码生成。