QoS感知的令牌调度与多模态智能体网络的私有数据估值

arXiv cs.AI 论文

摘要

本研究论文提出了一种面向去中心化多模态智能体系统的公平令牌分配和私有数据估值框架,利用差分隐私原型在调度有限的边缘AI资源的同时平衡隐私与效用。

arXiv:2606.15573v1 公告类型:新 摘要:在智能体系统中,人类生成的数据记录锚定了AI服务的价值。然而,云计算管道将处理集中在远程服务器上。数据集中化降低了个人数据主权,并可能降低服务质量(QoS)。同时,用户贡献在数量和质量上各不相同:去中心化记录可能存在偏差、噪声且分布不均。为了解决这一数据挑战,我们研究了面向去中心化且资源受限的智能体系统的公平令牌分配和私有数据估值。我们的方法将多模态表示嵌入到共享语义空间中,并发布差分隐私(DP)原型,以在减少语义泄露的同时保持效用。在DP保证下,我们设计了一种公平令牌分配方案,该方案奖励有效贡献,并对数据异质性和AI资源稀缺具有鲁棒性。大量模拟表明,与标准基准相比,基于贡献的公平性和QoS得到了改善。对图像重建攻击的抵抗能力增强,表明多模态个人数据的隐私得到了增强。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:46

# 面向多模态智能体网络的 QoS 感知令牌调度与私有数据估值 来源:https://arxiv.org/html/2606.15573 Yao Du¹²,Jing Liu¹,Pengfei Xu²,Zehua Wang¹³,Victor C\.M\. Leung¹⁴⁶,Cyril Leung¹,Victoria Lemieux¹ \{yaodu, jingliu, zwang, vleung, cleung\}@ece\.ubc\.ca,nora@lazai\.network,v\.lemieux@ubc\.ca本研究部分受Mitacs项目IT47821(资助号QJLI GR037230)、加拿大自然科学与工程研究理事会(NSERC)项目RGPIN-2019-06348、RGPIN-2020-05410、RGPIN-2021-02970、DGECR-2021-00187、广东省珠江人才计划引进项目2019ZT08X603、广东省珠江人才计划项目2019JC01X235、Mitacs项目IT44479以及UBC PMC-Sierra网络与通信讲席教授职位(通信作者:Zehua Wang和Jing Liu)资助。 ###### 摘要 在智能体系统中,人类生成的数据记录锚定了AI服务的价值。然而,云计算流程将处理集中化在远程服务器上。数据集中化降低了个人数据主权,并可能潜在损害服务质量(QoS)。与此同时,用户贡献在数量和质量上存在差异:去中心化记录可能存在偏差、噪声且异构分布。为应对数据挑战,我们研究了面向去中心化且资源受限的智能体系统的公平令牌分配与私有数据估值方法。我们的方法将多模态表示嵌入共享语义空间,并发布差分隐私(DP)原型以在减少语义泄露的同时保持效用。基于DP保证,我们设计了一种公平令牌分配方案,该方案奖励有效贡献,并对数据异构性和AI资源稀缺性具有鲁棒性。大量仿真表明,与标准基准相比,基于贡献的公平性和QoS得到了改善。对图像重建攻击的更强抵抗力表明多模态个人数据的隐私性得到了增强。 ## I 引言 如今,人工智能(AI)正越来越多地实现网络边缘应用[2 (https://arxiv.org/html/2606.15573#bib.bib2)]。由多个AI智能体驱动的智能体应用已成为主要研究焦点。传统上,这些系统遵循云端为中心的流程:用户数据在设备上收集,传输到远程服务器,由核心网络中的大型基础模型处理,然后作为智能体动作返回。虽然这种架构加速了早期AI的采用,但也引入了重大的隐私和安全风险,因为敏感数据必须离开设备。例如,语音助手可能上传连续的音频片段,推荐智能体可能在没有明确用户同意的情况下推断或暴露私人属性(如财务记录)。随着AI决策变得更加自主且具有财务后果,正逐渐转向边缘智能,即AI智能体在靠近用户的个人设备或边缘服务器上执行。这种转变减少了延迟和对集中式基础设施的依赖,并更好地支持用户数据主权。然而,去中心化的边缘智能[3 (https://arxiv.org/html/2606.15573#bib.bib5)]引入了新的系统挑战:用户贡献异构,计算和AI配额等资源有限,而临时调度器可能浪费或放大稀缺边缘资源的不公平分配。服务质量(QoS)与数据主权之间的权衡引出了一个核心问题:如何以隐私保护的方式量化数据价值,并公平分配稀缺的AI使用配额?虽然Shapley值是一种研究充分的数据估值工具[9 (https://arxiv.org/html/2606.15573#bib.bib4)],但基于Shapley的方案在去中心化环境中往往不实用。计算数据Shapley值通常需要重复的模型训练和对外部原始数据的访问。此外,隐私保护交叉验证[3 (https://arxiv.org/html/2606.15573#bib.bib5)]可以提供可靠估计,但它假设本地验证集可用,这增加了智能体应用的部署复杂性。此外,可信执行环境[6 (https://arxiv.org/html/2606.15573#bib.bib14)]为外包计算提供了高效的完整性和机密性,但依赖于硬件可信度,并可能易受侧信道攻击。相比之下,零知识证明[1 (https://arxiv.org/html/2606.15573#bib.bib13)]可以在不透露输入或AI模型的情况下证明正确的计算验证,但通常在资源受限的边缘设备上产生较高的证明生成开销。为弥补这一差距,我们研究了用于私有数据估值的差分隐私(DP)和用于公平AI配额分配的令牌桶调度。在去中心化多模态智能体系统中,我们将用户贡献嵌入到一个共享的语义表示空间中,并将嵌入聚类到以个体为中心的去中心化自治组织(iDAO)¹¹¹https://lazai\.network/learn/idao中,以实现去中心化数据估值。基于标准DP保证[4 (https://arxiv.org/html/2606.15573#bib.bib7)],我们发布受DP保护的原型作为iDAO目录条目,以在重建攻击下支持效用同时限制语义泄露。更具体地说,我们的贡献包括: - •我们引入了一个QoS感知的激励框架,将稀缺的AI计算资源(而非静态支付)视为去中心化市场的动态货币。通过实现数据锚定令牌(DAT)²²²https://github\.com/0xLazAI/contracts,我们将贡献价值结算到令牌桶调度器的参数中,确保资源访问在数学上与贡献的数据效用成正比。 - •我们提出了一种解决“发现-隐私”悖论的语义市场原语。通过将原始数据表示为受iDAO治理、受DP保护的原型,我们使智能体能够以正式的DP保证进行语义搜索和知识交易,从而消除了在估值阶段暴露原始数据的需要。 - •我们提供了广泛的评估,表明即使贡献分布高度不平衡,令牌分配方案也能保持公平分配。为了验证系统在对抗环境中的效用,我们通过实验证明,与基线相比,系统对重建攻击具有更强的抵抗力。 ## II 系统模型与问题表述 在本节中,我们介绍可验证智能体系统背景下数据估值的系统模型。我们进一步将数据估值问题映射到令牌桶调度问题,以改善去中心化智能体系统中的公平性和QoS。 ### II-A 智能体网络模型 参见图注图1:云-边-端协同智能体框架。以M=2M=2且N=3N=3为例。如图1 (https://arxiv.org/html/2606.15573#S2.F1)所示,我们考虑一个端-边-云协作架构用于智能体网络。具体来说,AI智能体n∈N=\{1,2,...,N\}n\\in\\mathcal\{N\}=\\\{1,2,\\ldots,N\\\}在网络边缘运行并与最终用户交互。当本地资源不足时,智能体将其部分工作负载卸载到分布式边缘服务器m∈M=\{1,2,...,M\}m\\in\\mathcal\{M\}=\\\{1,2,\\ldots,M\\\}上,这些服务器共同构成一个去中心化的AI计算网络。除了提供共享计算,边缘服务器还执行第二层协调,即对提交的数据和计算结果的链下验证,生成可验证证明,并定期将摘要提交到链上账本进行奖励结算(例如,通过DAT)。我们还考虑由大型AI提供商运营的远程云服务器,作为边缘无法高效执行的任务的备用方案。 ### II-B 数据估值模型 我们采用DAT作为链上抽象,用于对我们智能体系统中的数据和证明进行估值。DAT是一种半同质化令牌,专为AI原生数字资产(数据集、模型或计算结果)设计;每个令牌共同编码了所有权证明、使用权(配额)以及未来收入的价值份额。对于任意智能体n∈Nn\\in\\mathcal\{N\},un∈R≥0u\_\{n\}\\in\\mathbb\{R\}\_\{\\geq 0\}表示分配的效用配额。设VV表示可用于分配的总效用配额。那么, ∑n=1Nun≤V\.\\sum\_\{n=1\}^\{N\}u\_\{n\}\\leq V\.\(1\) 对于任意智能体n∈Nn\\in\\mathcal\{N\},设vn≥0v\_\{n\}\\geq 0表示控制收入分配的DAT*数据价值*。我们将DAT记录定义为\(addressn,vn,ρn\)\\big\(\{\\text\{address\}\}\_\{n\},v\_\{n\},\\,\\rho\_\{n\}\\big\),其中addressn\\text\{address\}\_\{n\}表示链接到账户地址的所有权证明,ρn\\rho\_\{n\}是一个紧凑的元数据指针(例如,完整性哈希和来源证明)。设v=\(v1,v2,...,vn\)\\mathbf\{v\}=\(v\_\{1\},v\_\{2\},\\dots,v\_\{n\}\)且vn≤f\(dn\)v\_\{n\}\\leq f\(\\mathbf\{d\}\_\{n\}\),其中dn\\mathbf\{d\}\_\{n\}表示智能体nn的数据贡献,f\(dn\)f\(\\mathbf\{d\}\_\{n\}\)是计算dn\\mathbf\{d\}\_\{n\}数据价值的估值函数。非负函数f\(dn\)f\(\\mathbf\{d\}\_\{n\}\)的细节在第四节 (https://arxiv.org/html/2606.15573#S4)中介绍。因此,我们有 0≤vn≤f\(dn\)\.0\\leq v\_\{n\}\\leq f\(\\mathbf\{d\}\_\{n\}\)\.\(2\) 在第三节-C (https://arxiv.org/html/2606.15573#S3.SS3)中,vnv\_\{n\}用于参数化令牌桶调度器的补充速率。通过使用个性化的补充速率,价值更高的贡献者获得比例更大、频率更高的AI配额。 ### II-C 威胁模型 我们假设一个部分可信的智能体网络:账本和智能合约正确执行,但单个DAT贡献者可能采取策略行为。我们考虑包括数据验证者和边缘计算节点在内的服务器可能对个人信息好奇,并可能发起成员推断攻击。在第三节 (https://arxiv.org/html/2606.15573#S3)中,应用差分隐私噪声进行隐私保护。设M\\mathcal\{M\}表示一个随机化机制,它将数据集作为输入并输出结果。设DD和D′D^\{\\prime\}表示两个相邻数据集,它们最多相差一个人的记录。设SS表示M\\mathcal\{M\}输出空间的任意可测子集。设ε≥0\\varepsilon\\geq 0表示隐私预算(ε\\varepsilon越小表示隐私越强),0≤δ<10\\leq\\delta<1表示隐私违例的概率。一个随机化机制M\\mathcal\{M\}被称为(ε,δ)(\\varepsilon,\\delta)-差分隐私[4 (https://arxiv.org/html/2606.15573#bib.bib7)],如果对于所有相邻数据集d,d′\\mathbf\{d\},\\mathbf\{d\}^\{\\prime\}和所有可测集SS,成立 Pr⁡\[M\(d\)∈S\]≤eεPr⁡\[M\(d′\)∈S\]\+δ,\\Pr\[\\mathcal\{M\}\(\\mathbf\{d\}\)\\in S\]\\leq e^\{\\varepsilon\}\\Pr\[\\mathcal\{M\}\(\\mathbf\{d\}^\{\\prime\}\)\\in S\]\+\\delta,\(3\) 并且对称地, Pr⁡\[M\(d′\)∈S\]≤eεPr⁡\[M\(d\)∈S\]\+δ\.\\Pr\[\\mathcal\{M\}\(\\mathbf\{d\}^\{\\prime\}\)\\in S\]\\leq e^\{\\varepsilon\}\\Pr\[\\mathcal\{M\}\(\\mathbf\{d\}\)\\in S\]\+\\delta\.\(4\) ### II-D 公平性指标 为量化NN个智能体间配额或资源分配的公平性,我们采用两种经典的不平等度量:Jain公平性指数和基尼系数。设u=\(u1,u2,...,un\)\\mathbf\{u\}=\(u\_\{1\},u\_\{2\},\\dots,u\_\{n\}\)表示每个智能体收到的非负效用配额(即有效AI配额)。设r=\(r1,r2,...,rn\)\\mathbf\{r\}=\(r\_\{1\},r\_\{2\},\\dots,r\_\{n\}\)表示奖励率, rn=\{unvn,vn\>0,0,vn=0\.\\displaystyle r\_\{n\}=\\begin\{cases\}\\frac\{\{u\}\_\{n\}\}\{\{v\}\_\{n\}\},&v\_\{n\}\>0,\\\\ 0,&v\_\{n\}=0\.\\end\{cases\}\(5\) 我们的公平性分析侧重于奖励率的分布,即每份贡献的奖励。数据贡献相似的智能体应获得相当的奖励率。此外,Jmin∈\(0,1\)\{J\}\_\{\\text\{min\}\}\\in\(0,1\)和Gmax∈\(0,1\)\{G\}\_\{\\text\{max\}\}\\in\(0,1\)表示公平性边界,以减轻智能体间的算法偏见和对系统效用分配的集中控制。 #### II-D1 Jain公平性指数。Jain指数J\(r\)J\(\\mathbf\{r\}\)评估奖励率在智能体间的分布均匀程度。 J\(r\)=\(∑n=1Nrn\)2N∑n=1Nrn2,J\(\\mathbf\{r\}\)=\\frac\{\\left\(\\sum\_\{n=1\}^\{N\}r\_\{n\}\\right\)^\{2\}\}\{N\\sum\_\{n=1\}^\{N\}r\_\{n\}^\{2\}\},\(6\) 其中J\(r\)≥Jmin,0<Jmin≤1。Jain指数值越接近1,分配越公平。 #### II-D2 基尼系数。基尼系数G\(r\)G\(\\mathbf\{r\}\)衡量奖励率分布的相对不平等程度,定义如下: G\(r\)=∑n1=1N∑n2=1N|rn1−rn2|2N∑n=1Nrn,G\(\\mathbf\{r\}\)=\\frac\{\\sum\_\{n\_1=1\}^\{N\}\\sum\_\{n\_2=1\}^\{N\}|r\_\{n\_1\}-r\_\{n\_2\}|\}\{2N\\sum\_\{n=1\}^\{N\}r\_\{n\}\},\(7\) 其中G\(r\)≤Gmax,0<Gmax<1。较小的基尼系数对应于更公平的分配。 ### II-E 问题表述 我们共同优化token-bucket调度器的参数以鼓励高价值贡献。token-bucket调度器在第三节 (https://arxiv.org/html/2606.15573#S3)中详述。我们寻求最大化最小奖励率(\ref{eq:12})并最大化总用户效用(\ref{eq:13}),受限于公平性约束和token-bucket动力学。 P: max min\u2009\u200brn, subject to: \eqref{eq:12} \& \label{eq:13}\max\\min\\,\\,r\_\{n\}\\quad\\text\{, subject to: \}\\\eqref\{eq:12\}\\& \\\\ max∑n=1Nun,subject to:\eqref{eq:1},\eqref{eq:12},\eqref{eq:13},\& \eqref{eq:16}\max\\sum\_\{n=1\}^\{N\}u\_\{n\}\\quad\\text\{,subject to:\}\\ \\eqref\{eq:1\},\\eqref\{eq:12\},\\eqref\{eq:13\},\\&\\ \\eqref\{eq:16\} 其中所有变量在约束集中定义。 为了维持聚合效用的同时提升公平性,我们提出一种数据价值感知的补充速率机制(第三节 (https://arxiv.org/html/2606.15573#S3)),该机制将基于Shapley值的数据质量评估(第四节 (https://arxiv.org/html/2606.15573#S4))与DP噪声注入(第四节 (https://arxiv.org/html/2606.15573#S4))相结合。 ## III 公平令牌桶调度 在本节中,我们介绍基于令牌桶的调度,以实现去中心化多模态智能体网络中的公平AI配额分配。 ### III-A 令牌桶模型 令牌桶模型作为调度器,以有限但稳定的速率分发令牌。令初始容量CmaxC\_\{\\max\}表示最大令牌堆积量。令ρn\\rho\_\{n\}表示智能体nn的补充速率。令BmaxB\_\{\\max\}表示桶最大容量。令函数剩余桶容量B\(t\)B\(t\)表示在时间tt时桶内的令牌数,0≤B\(t\)≤Bmax0\\leq B\(t\)\\leq B\_\{\\max\}。令牌按速率ρn\\rho\_\{n\}补充。对于每个单位时间,令牌消耗发生在任务请求时,每消耗一个令牌允许执行一个单位的工作负载。定义系统总工作负载为WW。令牌生成以补充速率ρn\\rho\_\{n\}进行,直至达到容量上限BmaxB\_\{\\max\}。令ΔB\\Delta B表示在时间间隔Δt\\Delta t内令牌的净变化,ΔB=ρn⋅Δt−消耗的令牌数,\\Delta B=\\rho\_\{n\}\\cdot\\Delta t-\\text\{消耗的令牌数\},\(8\) 其中消耗的令牌数取决于任务调度的速率。在稳定状态下,智能体nn获得的配额unu\_\{n\}与补充速率ρn\\rho\_\{n\}成正比,如 Eq. 9: un=ρn⋅TBmax⋅Cmax,\\displaystyle u\_\{n\}=\\rho\_\{n\}\\cdot\\frac\{T\}\{B\_\{\\max\}\}\\cdot C\_\{\\max\},\(9\) 其中TT是调度间隔。简化后,配额分配可以看作是对总效用配额VV的分摊:∑n=1Nun=V。\\sum\_\{n=1\}^\{N\}u\_\{n\}=V。\(10\) ### III-B 数据价值与补充速率 数据值vnv\_\{n\}取自第四节 (https://arxiv.org/html/2606.15573#S4)中描述的估值函数。然后我们设置补充速率与数据值成正比: ρn=k⋅vn,\\displaystyle \\rho\_\{n\}=k\\cdot v\_\{n\},\(11\) 其中k>0k>0是比例常数。通过这种方式,贡献更多有价值数据的智能体获得更快的令牌补充,从而获得更大的有效配额。 ### III-C 效用配额与收益公平性 每个智能体的有效配额unu\_\{n\}由补充速率ρn\\rho\_\{n\}和调度器约束确定。我们定义收益率为 rn=unvn,\\displaystyle r\_\{n\}=\\frac\{u\_\{n\}\}\{v\_\{n\}\},\(12\) 它量化了每单位数据价值获得的效用。我们的目标是实现 r1≈r2≈⋯≈rN,\\displaystyle r\_\{1\}\\approx r\_\{2\}\\approx\\cdots\\approx r\_\{N\},\(13\) 这对应于一种“按价值分配”的公平性概念。 ### III-D 调度算法 算法1描述了调度过程。**算法1 令牌桶调度** **输入:** 数据值集合{vn}\\{v\_\{n\}\\},总价值VV,比例常数kk,桶容量BmaxB\_\{\\max\},间隔TT **输出:** 分配的效用配额{un}\\{u\_\{n\}\\} 1: 对于每个智能体nn: 2: 使用Eq. (11)计算ρn←k⋅vn\\rho\_\{n\}\\leftarrow k\\cdot v\_\{n\} 3: 以速率ρn\\rho\_\{n\}生成令牌,在容量BmaxB\_\{\\max\}限制下 4: 在间隔TT内,根据令牌可用性调度任务 5: 使用Eq. (9)计算un\\mathrm\{u\}\_\{n\} 6: **返回**{un}\\{u\_\{n\}\\}。 **定理1** 在算法1下,如果对于所有nn,vn>0v\_\{n\}>0且∑n=1Nvn=V\\sum\_\{n=1\}^\{N\}v\_\{n\}=V,那么分配满足: u1v1=u2v2=⋯=uNvN,\\displaystyle\\frac\{u\_\{1\}\}\{v\_\{1\}\}=\\frac\{u\_\{2\}\}\{v\_\{2\}\}=\\cdots=\\frac\{u\_\{N\}\}\{v\_\{N\}\},\(14\) 即实现了完美公平。 **证明**:从Eq. (9)和Eq. (11),我们有un=ρn⋅TBmax⋅Cmax=k⋅vn⋅TBmax⋅Cmax\\displaystyle u\_\{n\}=\\rho\_\{n\}\\cdot\\frac\{T\}\{B\_\{\\max\}\}\\cdot C\_\{\\max\}=k\\cdot v\_\{n\}\\cdot\\frac\{T\}\{B\_\{\\max\}\}\\cdot C\_\{\\max\}。因此,un/vn=k⋅T⋅Cmax/Bmax\\displaystyle u\_\{n\}/v\_\{n\}=k\\cdot T\\cdot C\_\{\\max\}/B\_\{\\max\},对所有nn是常数。∎∎ ### III-E 全局调度 为管理多个智能体之间的令牌消耗,我们引入一个全局调度机制。令σn(t)\\sigma\_\{n\}(t)为智能体nn在时间tt的请求到达率。调度器需要决定分配令牌给哪些请求。我们采用加权公平排队策略:在时间tt分给智能体nn的令牌比例为 wn(t)=ρnB\(t\)⋅∑m∈Nρm。\\displaystyle w\_\{n\}(t)=\\frac\{\\rho\_\{n\}\}\{B\(t\)\\cdot\\sum\_\{m\\in\\mathcal\{N\}\}\\rho\_\{m\}\}\。\(15\) **命题1** 在重负载下(即总请求率超过总令牌生成率),加权公平排队分配的令牌数量与ρn\\rho\_\{n\}成正比,从而保持公平性。 **证明**:令总令牌生成率为∑ρn\\sum\\rho\_\{n\}。在稳定状态下,B\(t\)B\(t\)有界,因此分配速率趋近于(ρn/∑ρm)⋅∑ρm=ρn(\\rho\_\{n\}/\\sum\\rho\_\{m\})\\cdot\\sum\\rho\_\{m\}=\\rho\_\{n\}。因此unu\_\{n\}与ρn\\rho\_\{n\}成正比,从而保持公平性。∎∎ ### III-F 公平性保障 结合Eq. (11)和(9),我们得到类别的公平分配。在实践中,由于令牌桶的离散性和到达过程的随机性,Eq. (13)可能只是近似成立。我们定义公平性偏差为: ΔF=√(\(1/N)∑\(rn−rˉ)2\)/rˉ。\\Delta\_F=\\sqrt\{\(1/N\)\\sum\(r\_\{n\}-\\bar\{r\}\)^\{2\}\}/\\bar\{r\}\。\(16\) 算法保证ΔF\\Delta\_F随着T→∞T\\rightarrow\\infty而趋向于零。 ## IV 基于DP的私有数据估值 ### IV-A 数据贡献与价值函数 在去中心化系统中,智能体nn贡献数据dn\\mathbf\{d\}\_\{n\},但仅在主动使用AI配额时: vn=\{f\(dn\),un\>0,0,un=0\.\\displaystyle v\_\{n\}=\\begin\{cases\}f\(\\mathbf\{d\}\_\{n\}\),&u\_\{n\}\>0,\\\\ 0,&u\_\{n\}=0\.\\end\{cases\}\(18\) 为获得最佳数据值vnv\_\{n\},每个智能体必须贡献dn\\mathbf\{d\}\_\{n\}以最大化f\(dn\)f\(\\mathbf\{d\}\_\{n\}\)。因此, dn⋆=arg⁡maxdn∈Dn⁡f\(dn\),\\mathbf\{d\}^\{\\star\}\_\{n\}=\\arg\\max\_\{\\mathbf\{d\}\_\{n\}\\in\\mathcal\{D\}\_\{n\}\}f\(\\mathbf\{d\}\_\{n\}\),\(19\) 其中Dn\\mathcal\{D\}\_\{n\}表示智能体nn所有可能的数据贡献。Eq. (19 (https://arxiv.org/html/2606.15573#S4.E19))表明,在提出的系统下,理性智能体将贡献尽可能多的数据,以最大化由f\(dn\)f\(\\mathbf\{d\}\_\{n\}\)计算得出的数据价值。 ### IV-B 私有数据估值 设\|⋅\|\|\\cdot\|表示集合的基数。那么,dn\\mathbf\{d\}\_\{n\}的数据量可以表示为\|dn\|\|\\mathbf\{d\}\_\{n\}\|。我们进一步定义一个新颖度评分函数,记为φ\(dn\)∈\[0,1\]\\phi\(\\mathbf\{d\}\_\{n\}\)\\in\[0,1\],以量化dn\\mathbf\{d\}\_\{n\}的平均数据新颖度。我们提出 f\(dn\)=φ\(dn\)ln⁡\(1\+\|dn\|\)。\\displaystyle f\(\\mathbf\{d\}\_\{n\}\)=\\phi\(\\mathbf\{d\}\_\{n\}\)\\ln\(1\+\|\\mathbf\{d\}\_\{n\}\|\)。\(20\) 我们考虑一个动态数据估值函数,它同时依赖于数据质量和数据数量。数据质量的主要指标φ\(dn\)\\phi\(\\mathbf\{d\}\_\{n\}\)衡量贡献数据dn\\mathbf\{d\}\_\{n\}如何丰富去中心化智能体系统已发现的知识。根据定义,有噪声的贡献产生φ\(dn\)=0\\phi\(\\mathbf\{d\}\_\{n\}\)=0。相反,自然对数用于捕捉数据量增加的边际效用递减[3 (https://arxiv.org/html/2606.15573#bib.bib5)]。在本文中,我们提出一种基于数据新颖度的估值方法,以降低的计算复杂度近似真实数据价值。 参见图注图3:在数据估值之前,向高维私有数据添加DP噪声。每个语义簇形成一个iDAO来管理数据估值和奖励结算。如图3 (https://arxiv.org/html/2606.15573#S4.F3)所示,原始数据(例如文本或图像)首先被编码成语义嵌入空间中的数值向量。随着用户继续贡献新数据,数据嵌入在语义空间中形成簇。来自同一簇的数据嵌入被平均成一个原型。为保护隐私,在原型嵌入向量传输到边缘服务器之前,向其中添加DP噪声。为激励高质量贡献,我们引入一个阈值Γ\\Gamma来区分新颖数据与普通数据。我们的直觉是,新颖性与带时间戳的数据新鲜度相关:填充一个新发现簇的前Γ\\Gamma个样本被视为新颖数据,即φ\(dn\)=1\\phi\(\\mathbf\{d\}\_\{n\}\)=1,而落入同一簇的后续样本被视为普通贡献,即φ\(dn\)=0\.5\\phi\(\\mathbf\{d\}\_\{n\}\)=0\.5。相比之下,无法被可靠分配到任何簇的噪声或低质量数据被视为语义噪声,不获得新颖性分数,即φ\(dn\)=0\\phi\(\\mathbf\{d\}\_\{n\}\)=0。设qq表示噪声的扰动系数,ss表示高斯分布的尺度参数。设Δ2\\Del

相似文章