LQS v3.1 — 一种用于评估AI训练数据的开放方法(多预言机共识 + 签名证书)[P]
摘要
作者介绍了LQS v3.1,一种使用多预言机共识和签名证书评估AI训练数据的开放方法,并附有已发表的论文和公共指数。该方法旨在解决AI训练数据市场中独立质量评估的瓶颈问题。
这里是单独作者。我花了六个月时间构建(然后关闭)一个AI训练数据市场。市场失败的原因很有趣:真正的瓶颈并非供应。数据量很大。瓶颈在于买家无法独立评估质量,而且没有类似Cleanlab/Galileo的工具占据评分权威的位置——那些产品是数据所有者拥有的诊断工具,而不是采购团队或模型风险官可以引用的第三方证明。因此,我将整个项目重建为评分层。该方法已发表并获得DOI(10.5281/zenodo.20278981,CC BY 4.0)——完整的v3.1论文,每个维度都有定义。v3.1包含:
- 19个维度:标签正确性、覆盖度、泄露、污染、合理性、预言机一致性、共形覆盖、下游投影、对抗稳定性、子群公平性、许可清晰度、来源链等
- 跨分数的7个预言机共识,且oracle_agreement本身是一个评分维度(即评分了解自身的不确定性)
- 结果注册表:下游信号反馈回来重新校准预言机可信度——评分从真实世界质量结果中学习,而不仅仅是评分者间一致性
- Ed25519签名证书,审计员可以在线下根据发布的公钥验证(无需API调用)
- 公共LQS指数:11个代码,约263个数据集已评分,每日重新平衡,免费API
这实际上是收入前阶段(零付费客户——对你坦诚,并非故作姿态)。我最看重的是本子版块的方法论评审。论文是开放的。如果有任何维度定义错误,或者系统可以被博弈、预言机聚合有误,我希望在它被引用之前知道。对抗性数据集:如果你有一个数据集你认为LQS会评错(无论高估还是低估),我会免费评分,我们可以公布分歧。我应该引用的类似系统:我知道Cleanlab、Galileo、FT Spectrum项目——还有什么?任何公开数据集的免费评分:[labelsets.ai/rate](http://labelsets.ai/rate) 论文:[https://doi.org/10.5281/zenodo.20278981](https://doi.org/10.5281/zenodo.20278981) 乐意回答关于架构、共形区间、市场转型等方面的问题。
相似文章
强化学习数据的良好质量控制(18分钟阅读)
本文讨论了强化学习数据质量控制的重要性,概述了当前数据供应商的不足之处以及前沿AI实验室用于评估RL数据的标准。
QU-NLP 亮相 QIAS 2026:面向阿拉伯语伊斯兰继承推理的多阶段 QLoRA 微调
本文介绍了卡塔尔大学针对阿拉伯语伊斯兰继承推理提出的基于 Qwen3-4B 的多阶段 QLoRA 微调方法。该方法首先对伊斯兰教令(fatwa)记录进行领域适配,随后在 12,000 个结构化继承案例上进行任务特定训练,最终达到 90% 的 MIR-E 得分。其性能媲美 Gemini-2.5-flash 等商业系统,且仅需极少的计算资源。
PoQ-Judge:一种面向去中心化LLM推理中成本感知质量证明的多架构评估框架
介绍了PoQ-Judge,一种采用无参考评判模型(TextCNN、MiniLM、DeBERTa)的多架构评估框架,用于去中心化LLM推理中的成本感知质量证明,实现了与地面真值代理的高相关性,同时消除了对参考答案的需求。
Gate AI:LLM安全基准评估方法与结果
本文提出了一种针对LLM安全检测器的评估方法,旨在解决诸如按数据集调阈值、未公开操作点等系统性缺陷。该框架在16个基准上进行交叉验证,选取单一全局操作点,并包含多项泛化能力诊断指标。
LakeQA:百万级数据湖上的探索性问答基准
LakeQA是一个新的基准,用于在百万级数据湖上进行探索性问答,评估跨文本、表格和知识图谱的多跳推理和组合能力。