LQS v3.1 — 一种用于评估AI训练数据的开放方法（多预言机共识 + 签名证书）[P]

Reddit r/MachineLearning 2026/05/23 01:21 论文

methodology data-quality ai-training-data rating-system oracle-consensus open-source

摘要

作者介绍了LQS v3.1，一种使用多预言机共识和签名证书评估AI训练数据的开放方法，并附有已发表的论文和公共指数。该方法旨在解决AI训练数据市场中独立质量评估的瓶颈问题。

这里是单独作者。我花了六个月时间构建（然后关闭）一个AI训练数据市场。市场失败的原因很有趣：真正的瓶颈并非供应。数据量很大。瓶颈在于买家无法独立评估质量，而且没有类似Cleanlab/Galileo的工具占据评分权威的位置——那些产品是数据所有者拥有的诊断工具，而不是采购团队或模型风险官可以引用的第三方证明。因此，我将整个项目重建为评分层。该方法已发表并获得DOI（10.5281/zenodo.20278981，CC BY 4.0）——完整的v3.1论文，每个维度都有定义。v3.1包含： - 19个维度：标签正确性、覆盖度、泄露、污染、合理性、预言机一致性、共形覆盖、下游投影、对抗稳定性、子群公平性、许可清晰度、来源链等 - 跨分数的7个预言机共识，且oracle_agreement本身是一个评分维度（即评分了解自身的不确定性） - 结果注册表：下游信号反馈回来重新校准预言机可信度——评分从真实世界质量结果中学习，而不仅仅是评分者间一致性 - Ed25519签名证书，审计员可以在线下根据发布的公钥验证（无需API调用） - 公共LQS指数：11个代码，约263个数据集已评分，每日重新平衡，免费API 这实际上是收入前阶段（零付费客户——对你坦诚，并非故作姿态）。我最看重的是本子版块的方法论评审。论文是开放的。如果有任何维度定义错误，或者系统可以被博弈、预言机聚合有误，我希望在它被引用之前知道。对抗性数据集：如果你有一个数据集你认为LQS会评错（无论高估还是低估），我会免费评分，我们可以公布分歧。我应该引用的类似系统：我知道Cleanlab、Galileo、FT Spectrum项目——还有什么？任何公开数据集的免费评分：[labelsets.ai/rate](http://labelsets.ai/rate) 论文：[https://doi.org/10.5281/zenodo.20278981](https://doi.org/10.5281/zenodo.20278981) 乐意回答关于架构、共形区间、市场转型等方面的问题。

查看原文

LQS v3.1 — 一种用于评估AI训练数据的开放方法（多预言机共识 + 签名证书）[P]

相似文章

强化学习数据的良好质量控制（18分钟阅读）

QU-NLP 亮相 QIAS 2026：面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调

PoQ-Judge：一种面向去中心化LLM推理中成本感知质量证明的多架构评估框架

Gate AI：LLM安全基准评估方法与结果

LakeQA：百万级数据湖上的探索性问答基准

提交意见反馈