智胜变色龙:直播风险评估中战术性分布外偏移的反事实解耦
摘要
提出潜在预测反事实解耦(LPCD),通过在潜在层面将稳定的恶意意图与不断演变的叙述策略解耦,解决直播风险评估中的战术性分布外偏移,在大规模工业数据集上取得优越性能。
arXiv:2606.02946v1 公告类型:新
摘要:直播已成为社交互动和数字商务的主要媒介,但同时也日益受到复杂风险的困扰。该领域的一个基本挑战是\emph{战术性分布外(OOD)偏移}:恶意行为者保持稳定的底层目标,同时不断重新设计叙事包装以逃避检测。这种对抗性偏移暴露了现有OOD泛化范式的关键局限性,这些范式的假设在紧密耦合的意图-策略演变和定义不清的原始层面反事实面前难以满足。
在本文中,我们从\emph{潜在因果}角度解决这一问题,并提出\underline{L}atent-\underline{P}redictive \underline{C}ounterfactual \underline{D}ecoupling~(LPCD),一个用于稳健直播风险评估的即插即用框架。LPCD通过在潜在层面对意图和叙事变化进行建模,实现对抗性战术重新包装下的反事实推理,并强制\emph{潜在反事实一致性},将风险预测锚定在因果稳定的恶意意图上。在推理时,LPCD应用轻量级、无参数的校准进一步缓解战术引起的分布偏移。在大规模工业数据集和在线生产流量上的大量实验表明,LPCD始终优于最先进的基线,验证了其在现实直播中调节不断演变的对抗性风险的有效性。项目页面可在https://qiaoyran.github.io/LiveStreamingRiskAssessment/查看。
查看缓存全文
缓存时间: 2026/06/03 09:40
# 智胜变色龙:面向直播风控中战术性OOD漂移的反事实解耦方法
来源:https://arxiv.org/html/2606.02946
\(2026\)
###### 摘要。
直播已成为社交互动和数字商务的主要渠道,但同时也面临日益复杂的安全风险。该领域的一个根本挑战是**战术性分布外(OOD)漂移**:恶意行为者虽然维持着稳定的底层目标,却持续重新设计叙事包装以逃避检测。这种对抗性漂移暴露了现有OOD泛化范式在紧密耦合的意图-策略演化及原始层面反事实定义不清的情况下难以满足其假设的固有局限。
本文从**潜在因果**视角提出**潜在预测反事实解耦(LPCD)**,一个用于鲁棒直播风控的即插即用框架。LPCD通过在潜在层面对意图和叙事变化进行建模,实现对抗性战术重新包装下的反事实推理,并通过强制执行**潜在反事实一致性**,将风险预测锚定在因果稳定的恶意意图上。在推理阶段,LPCD应用轻量级、无参数校准进一步缓解策略引发的分布漂移。在大规模工业数据集和线上生产流量上的广泛实验表明,LPCD持续优于最先进基线,验证了其在真实直播场景中管控演化对抗风险的有效性。项目页面见 https://qiaoyran.github.io/LiveStreamingRiskAssessment/。
直播风控;OOD泛化
††版权:acm授权 ††期刊年份:2018 ††DOI:XXXXXXX.XXXXXXX ††会议:请从权益确认邮件中确认正确的会议标题;2018年6月3-5日,美国纽约州伍德斯托克 ††ISBN:978-1-4503-XXXX-X/2018/06 ††期刊年份:2026 ††版权:cc ††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2;2026年8月9-13日,韩国济州岛 ††书名:第32届ACM SIGKDD知识发现与数据挖掘会议V.2(KDD '26),2026年8月9-13日,韩国济州岛 ††DOI:10.1145/3770855.3818084 ††ISBN:979-8-4007-2259-2/2026/08 ††CCS:信息系统 数据挖掘
## 1. 引言
直播已成为社交互动和数字商务的主要媒介,随之而来的是日益复杂的安全风险,如金融欺诈和非法推广。这些会话中的恶意行为往往嵌入在看似合理的叙事中,掩盖真实意图,使得检测困难。这些多样的表层行为通常掩盖着一小部分稳定的恶意目标,使得攻击者能够在保持底层意图不变的情况下随时间调整策略。
一类主要目标包括:(i) **离平台重定向**至外部诈骗环境,以及(ii) **平台内欺骗性变现**,通过欺诈销售实现。为了在监控下实现这些目标,攻击者不断重新设计直播会话的叙事包装,包括对话脚本、互动节奏以及主播与同伙之间的配合。例如,同样的重定向意图可以包装成抽奖活动、招聘信息或投资建议,如图1(a)所示。稳定意图与易变呈现之间的错配,给试图从历史模式进行泛化的模型带来了持续挑战。
这种现象构成了**战术性分布外(OOD)漂移**,即数据分布在策略层面发生变化,而底层风险生成逻辑保持不变。与被动或外生因素驱动的传统分布漂移不同,战术性OOD漂移源于攻击者优化设计的叙事重新包装,这些包装与恶意目标有意耦合。因此,依赖历史战术模式的模型往往在已知意图被包裹在未见叙事中时无法泛化,如图1(b)所示。

图1:(a) 攻击者维持不变的恶意意图(如离平台重定向),同时持续重新设计易变的叙事包装以逃避检测。(b) 2025年10月至12月某生产环境风险检测模型在真实数据上的PR-AUC表现,显示同期性能下降。
尽管在OOD泛化方面已有大量研究(Zhou et al., 2022; Liu et al., 2021b),现有方法在应用于直播风控时面临根本局限。在监督层面,大多数OOD方法依赖显式(Arjovsky et al., 2019; Krueger et al., 2021)或可隐式推断的环境标签(Creager et al., 2021; Liu et al., 2024)。然而在直播中,战术变化以对抗方式持续涌现,没有清晰的环境边界。这使得基于环境不变性假设的方法难以在实践中直接应用。
除监督挑战外,对抗性直播还违反了众多基于不变性的方法所依赖的一个关键假设。这些方法通常假定虚假相关性源于被动或弱耦合的漂移(Zhang et al., 2020; Liu et al., 2021a)。相比之下,恶意直播会话中的叙事包装是策略性设计的,与底层意图紧密耦合。这种策略性共同演化导致深层语义纠缠,在观察层面施加不变性可能不足够,甚至适得其反。
尽管反事实推理(Pearl, 2009; Feder et al., 2022)为解决此类纠缠提供了原则性路径,但在原始观察空间中构建现实反事实在实践上往往定义不清。直播会话包含高维、多模态流,输入层干预难以在不破坏语义连贯性的情况下指定。这些挑战促使我们采用潜在因果表述,即在潜在表征空间而非原始观察上执行反事实推理和不变性约束。
为此,我们倡导一种**潜在因果**视角,使对抗性战术重新包装下的反事实推理成为可能。由于直播会话的原始级反事实定义不清,我们在潜在表征空间中进行因果干预,在显式建模意图保持的战术变化。这种结构使我们能够强制执行潜在反事实一致性,确保模型在叙事策略变化下仍聚焦于不变的风险核心。
基于这一视角,我们提出**潜在预测反事实解耦(LPCD)**,一个用于鲁棒直播风控的即插即用框架。LPCD将会话表征建模为意图相关和包装相关因子的组合,并通过在训练期间对包装因子进行干预实现**潜在反事实一致性**,从而隔离在战术重新包装下保持因果稳定的意图特定信号。在测试时,LPCD进一步应用无参数校准来修正策略引起的大小偏移。在抖音大规模工业数据上的广泛实验表明,LPCD在分布内和战术性OOD设置下均持续优于强基线。我们的主要贡献总结如下:
- • 我们识别出**战术性分布外(OOD)漂移**是直播风控中的一个根本挑战,其特点是在对抗性演变的叙事包装下恶意意图保持不变,并从**潜在因果**角度提供了原则性框架。
- • 我们提出**潜在预测反事实解耦(LPCD)**,一个即插即用框架,通过在表征和预测两个层面干预叙事包装来强制执行潜在反事实一致性,实现以意图为核心的风险建模。
- • 在大规模工业直播数据集和线上验证上的广泛实验证实了LPCD在分布内和战术性OOD设置下的SOTA性能,验证了其在真实直播场景中管控演化对抗风险的有效性。
## 2. 相关工作
### 2.1. 在线生态系统中的风险评估
在线生态系统中的风险评估已从细粒度的人工制品检测发展到对协调行为的更整体建模。一条研究线聚焦于识别局部信号,如用户生成文本中的有毒语言(Lees et al., 2022; Zannettou et al., 2020)或短视频中违反政策的视觉线索(Lu et al., 2025; Wang et al., 2025)。为了捕捉更复杂、有组织的风险,另一条研究线采用序列模型(Guo et al., 2018; Qiao et al., 2025; Xiao et al., 2024; Qiao et al., 2024; Wang et al., 2023)和图模型(Dou et al., 2020; Huang et al., 2022; Shi et al., 2022; Li et al., 2021; Cheng et al., 2025),从而能够刻画时间依赖和跨实体协调。
在直播中,风险信号本质上是会话级的,源于长距离互动和演变的叙事,而非孤立的单事件。这导致了多实例学习(MIL)公式,如AC-MIL(Qiao et al., 2026),将会话建模为用户-时隙实例的集合,并接受会话级监督。虽然这些方法有效捕获会话内动态,但它们本质上是关联性的,将风险预测与表层叙事模式相纠缠。
在对抗性策略演化下,相同的恶意意图不断被包裹在新的叙事中,这种耦合因此限制了模型对战术分布漂移的鲁棒性,促使我们对面向意图的建模产生需求,超越整体会话表征。
### 2.2. OOD泛化的因果视角
先前关于分布外(OOD)泛化的工作旨在通过跨环境强制执行不变表征来提高鲁棒性(Arjovsky et al., 2019; Krueger et al., 2021; Sagawa* et al., 2020; Zhou et al., 2022; Liu et al., 2021b)。因果启发的进一步将分布漂移解释为对非因果因素的干预,并试图将因果语义与虚假相关性解缠(Zhang et al., 2020; Liu et al., 2021a; Mahajan et al., 2021)。
然而,大多数现有框架在被动或外生漂移假设下运行,其中变化源于低级统计噪声、背景或时间非平稳性(Oublal et al., 2024; Liu et al., 2025; Wu et al., 2026)。在这些场景中,任务语义通常假定稳定,且反事实变化在观察层面被视为定义良好,分布漂移被看作环境引发而非策略性的。
相比之下,直播风控运行在战术性OOD体制中。恶意行为者主动重新设计叙事包装、互动模式和时序策略以掩盖意图。这些漂移具有结构性、高维性,并有意与风险信号纠缠,超出了以往专注于属性级解缠或统计不变性的方法范围。我们的工作通过引入一个显式干预叙事包装的潜在反事实解耦框架来填补这一空白,使得在演化对抗策略下实现鲁棒的意图推断。
## 3. 问题形式化
### 3.1. 业务背景
直播平台面临**对抗性演化风险**,恶意行为者持续重新设计战术以逃避检测。这一环境呈现三个关键挑战:(1) **战术漂移**:表层叙事包装和互动脚本快速演化,而底层恶意意图保持不变。(2) **粗粒度监督**:仅有会话级标签可用,没有显式的环境或动作级注释,使基于分组的OOD方案复杂化。(3) **标签延迟**:人工审核的延迟造成直播事件与标签可用性之间的时间差,要求模型能够跨分布漂移泛化而不进行实时重训练。
### 3.2. 定义与目标
我们研究战术性OOD漂移下的**直播风控**问题。目标是在尽管存在为逃避检测而设计的演化策略的情况下,判断一个直播会话是否涉及欺诈或非法推广等风险行为。
###### 定义3.1.
(动作)直播会话中的一个**动作**表示为元组 α = (u, t, a, x),其中 u 表示执行动作的用户,t 是时间戳,a 指示动作类型(例如,发送消息、送礼、加入),x ∈ ℝ^d 是使用预训练语言模型从原始文本内容中提取的 d 维语义嵌入。
###### 定义3.2.
(直播会话)时间窗口 [0, T] 内的一个直播会话定义为 S^{[0,T]} = (U, [α_1, α_2, ..., α_N]),其中 U = {u^h} ∪ U^v 由一个唯一主播 u^h 和一组观看者组成,[α_1, α_2, ..., α_N] 是 [0, T] 内按时间顺序排列的动作序列。每个动作 α_i 通过 (u_i, t_i) 隐式携带用户和时间上下文。
###### 定义3.3.
(直播会话编码器)在实践中,风险评估模型通常依赖于一个中间会话级表示,该表示聚合所有动作的信息。相似文章
表征优先于路由:克服多时间尺度PPO中的代理劫持
本文指出了代理劫持和时间不确定性是多时间尺度强化学习中的失败模式,并提出了一种目标解耦架构,该架构从Actor中移除路由,利用Critic进行辅助表征学习。该方法消除了LunarLander-v2基准上的策略崩溃,并稳定地超越了'环境已解决'阈值,而无需超参数劫持。
隐藏、重建与越狱:利用多模态大语言模型中的重建-隐藏权衡
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
ProactiveLLM: 学习主动交互的流式大语言模型
ProactiveLLM 提出了一种方法,使流式大语言模型能够基于内源性线索主动决定何时生成输出,通过基于掩码的流式建模和同步特权自蒸馏,在无需外部标注的情况下降低延迟。
LLMs中的隐藏潜在状态偏移:为何当前对齐方法对真正的内部危险视而不见——尤其是在智能体场景中
本文证明,LLMs可以在保持对齐输出的同时,在连贯上下文中进入可测量的不同内部潜在状态,揭示了当前仅监控表面token的对齐方法存在盲点。Gemma-3-12B-IT实验显示出强大的残差流几何偏移,现有安全框架无法检测,这对智能体AI部署具有重要影响。
TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。