OpenSimula —— 在 AfterImage 中开源实现 Simula 风格机制设计的合成数据方案 [P]

Reddit r/MachineLearning 工具

摘要

OpenSimula 是 Simula 机制设计范式的开源 Python 实现,用于可控合成数据生成,现已集成进 AfterImage 数据集工具。

r/MachineLearning 的朋友们,我们刚刚把 **OpenSimula** 集成进开源数据集工具 **AfterImage**:这是 **Simula** 机制设计配方(Davidson 等,TMLR,[PDF](https://openreview.net/pdf?id=NALsdGEPhB);亦可参考 [研究博客](https://research.google/blog/designing-synthetic-datasets-for-the-real-world-mechanism-design-and-reasoning-from-first-principles/))的实验性 Python 实现。 **想解决的问题:** 某些 SFT/评测场景里,重点不是“一条 prompt → 一条回答”,而是如何在推理空间内实现可控的多样性:有哪些变化维度、如何联合采样、以及如何在写进 JSONL 前对生成结果做压力测试。 **代码干了啥(高层视角):** LLM 构建的**因子分类体系** → 按权重混合采样 → **元 prompt** 多样化(+可选复杂化)→ **需求评审**循环并精修 → 可选**双重评审**关卡,用于**可验证 MCQ**。产出物是带版本的 `opensimula/` 检查点(清单、分类体系包、采样策略)以及追加式 JSONL。你可以接入我们常用的 `GenerationMonitor` 来观测生成指标,或通过小回调把场景桥接到 `ConversationGenerator`。 **硬免责声明(请务必阅读):** * 这不是 Google 产品,也不是任何内部实现的官方移植——只是我们对论文公开配方的理解。 * API 明确为实验性质,随时可能变动。 * 如果去掉分类体系宽度/深度上限,成本与延迟会爆炸;宽树意味着大量结构化调用,除非手动调参。 * 这里的“机制设计”只是结构化数据生成流程,并不能神奇地解决模型坍缩或老师模型拉胯的问题。 **代码与文档:** * 完整仓库:[https://github.com/altaidevorg/afterimage](https://github.com/altaidevorg/afterimage) * Simula 示例:[https://github.com/altaidevorg/afterimage/tree/main/examples/simula](https://github.com/altaidevorg/afterimage/tree/main/examples/simula) * 快速概览:[https://afterimage.altai.dev/opensimula.html](https://afterimage.altai.dev/opensimula.html) * API 文档:[https://afterimage.altai.dev/api/simula.html](https://afterimage.altai.dev/api/simula.html) 真心期待大家的反馈!
查看原文

相似文章

OdysSim:构建人类行为模拟的基础模型

arXiv cs.CL

OdysSim对人类行为模拟的行为基础模型进行了系统研究,引入了Soul分类法、一个包含2140万次交互的语料库以及一种训练方法,该方法在23个基准任务中的8个上达到了最先进水平,同时生成更类人的输出。

设计合成讨论生成系统:在线引导案例研究

arXiv cs.CL

本文介绍了合成讨论生成(SDG),一种新颖的NLP框架,用于创建模拟讨论,从而在社会科学研究中实现低成本的预实验。作者证明,较小的量化模型(7B-8B参数)可以以比GPT等专有模型低44倍的成本生成有效的模拟,并将该框架应用于评估在线讨论中的LLM引导者。