在出价前需要多少尽职调查？棘手的收购拍卖中的学习

arXiv cs.AI 2026/06/30 04:00 论文

takeover-auctions due-diligence game-theory reinforcement-learning pppo imperfect-information open-spiel

摘要

本文构建了收购竞标作为信息不完全的拍卖博弈模型，并利用博弈论求解器和强化学习研究最优尽职调查策略，发现PPO和PPG在大规模博弈中表现有效，同时给出了尽职调查边际收益为零的可计算阈值。

arXiv:2606.29457v1 公告类型：新摘要：当两家公司竞购同一目标时，无人确切知晓目标的价值。每名竞标者需为尽职调查付费：成本高昂且不完美的调查，可在出价前优化其私人估值。那么，这种调查值得投入多少？我们构建了一个简单的竞标竞赛计算机模型，并使其通过自我对弈来学习高效出价，正如游戏引擎学习国际象棋那样。经济问题——多少尽职调查物有所值——与计算问题——竞赛何时变得过于复杂而无法精确求解——均由同一因素控制：竞标者携带的私有信息片段数量。我们的主要发现是，合理的尽职调查量是适度且有限的：随调查成本增加而下降，且当双方都开展调查时进一步下降，因为竞争侵蚀了信息增量的价值。我们还验证了人工智能研究中的一个近期观点：简单的通用自我对弈方法，能够媲美为这类博弈专门打造的高成本复杂算法。在普通笔记本电脑上运行且无需昂贵的前沿AI，我们发现简单方法是自我学习途径中的最优选择，但针对特定目标设计的精确方法在博弈规模足够小的情况下仍占优势。只有当博弈规模大到无法精确求解时，简单方法才彰显价值——这正是现实交易所在的领域，我们证明它们仍能找出强有力的竞标策略。本文贡献有三：一种低成本、可复现的研究不确定条件下交易撮合的方法；一个基于模型的、关于多少尽职调查值得投入的具体答案；以及关于轻量级通用AI何时足以替代专门方法的实证证据。我们公开了所有游戏、代码及实验数据。

查看原文

查看缓存全文

缓存时间: 2026/06/30 05:33

# 1 引言
来源：https://arxiv.org/html/2606.29457
在投标前应进行多少尽职调查？在难处理的收购拍卖中学习

Zain Naboulsi 首席人工智能工程师，Sparq

zain\.naboulsi@teamsparq\.com

在收购竞赛之前，投标人应该购买多少尽职调查？交易团队凭判断来回答这个问题；我们将其转化为一个可计算、可辩护的数字，成本低廉，足以在普通笔记本电脑上运行。投标人依赖于私有的*尽职调查*：对目标公司真实价值（无人能观测到）的有噪声、有成本的估计。我们研究在这种不完美信息下如何有效投标，以及当博弈规模超出精确求解器能力范围时会发生什么。这两者通过一个杠杆联系在一起：每一单位的尽职调查就是另一个私有信号，每个信号都会使策略空间成倍增长，因此，决定购买多少尽职调查值得的那个量，同时也决定了博弈何时会超出精确求解器的处理能力。我们的答案是，最优尽职调查量是有限的，并且随着每个信号成本的上升而下降，包括在一个双方都选择尽职调查的均衡中，在这种均衡下，竞争会使最优量变得更加保守。我们将收购投标建模为收购拍卖文献中的一个小型二人零和拍卖博弈家族（具有赢者诅咒的共同价值、具有持股的共同价值和独立私人价值），建立在 OpenSpiel 之上可重用的抽象层上，并基准测试了涵盖精确、表格化和深度家族在内的九种求解器。近期工作认为，简单的通用策略梯度方法可以与专门的博弈求解机制（反事实遗憾最小化、虚拟博弈、双预言机）相媲美；我们发现，在普通 CPU 上，无需前沿模型开销，PPO 和 PPG 是最强的*学习*求解器，但仅限于该家族内部：只要博弈规模足够小以至于可以列表化，精确求解器（CFR、MMD、PSRO）在可剥削性上更低且速度更快。一项扩展研究表明，学习方法的每个目标成本平坦的独特优势仅在超出精确枚举范围后才显现。通过精确求解拍卖的真实自身利润贝叶斯-纳什均衡，我们随后解读出了投标人尽职调查的价值以及获取更多尽职调查停止产生回报的成本点。最后，在一个因为规模过大而无法枚举、精确求解器无法运行的多信号拍卖中，PPO 和 PPG 将一个经过校准的学习最佳响应可剥削性估计值驱动到其分辨率下限，低于一个朴素的无遮蔽投标人；我们将其报告为一个下界，而非纳什证书。我们发布了博弈、求解器和实验。https://github.com/zainnab-sparq/imperfect-information-deal-games![[无标题图片]](https://arxiv.org/html/2606.29457v1/figures/sparq-logo.png)Sparq

关键词：不完美信息博弈，拍卖，并购，策略梯度，PPO，反事实遗憾最小化，可剥削性，自我对弈，OpenSpiel

并购很少是一个标价过程。它通常是一个有争议的过程，收购方和目标公司，或两个竞争收购方，持有私有信息，并在对彼此和对资产都存在不确定性的情况下采取策略行动。经济学家将这些建模为不完全信息博弈（Harsanyi，1967–1968 (https://arxiv.org/html/2606.29457#bib.bib13)）：收购竞赛被视为具有私有或共同价值的拍卖，谈判被视为不对称信息下的讨价还价。计算博弈求解社区已经为大型不完美信息博弈开发出了强大的算法，但主要集中在休闲基准而非经济基准上。

我们标题中的问题对于交易团队来说是一个真实的问题，并且它带有一个隐藏的计算边缘。投标人执行的每一单位尽职调查都是它带到拍卖中的另一个私有信号，每个信号都会使其必须规划的不同情境数量成倍增长，因此策略空间随尽职调查量呈指数级增长。经济问题（多少尽职调查值得购买）和计算问题（博弈何时不再能精确求解）因此由同一个杠杆控制：投标人携带的信号数量。不过，它们并非同一个数字；我们发现经济上最优的尽职调查量是适度的，而博弈只有在信号数量大得多时才会超出精确求解器的能力范围，因此这两个问题在一个轴上相遇，但位于不同的点上。交易团队凭判断来回答尽职调查问题。本文直接解答了经济方面的问题，通过求解拍卖的自身利润均衡，发现最优量是有限的，并且随着每个信号成本的上升而下降，从而将那个判断转变为有模型支持的可辩护数字，并指出公司持续研究的点何时会花费超出其回报。它成本低廉，在普通笔记本电脑上运行，无需前沿模型开销，并利用计算方面在精确方法恰好失效的边界上对廉价通用求解器进行压力测试。

两个事实促使了本文的撰写。首先，标准的专门求解器（反事实遗憾最小化、虚拟博弈、双预言机及其深度变体）部署起来既昂贵又繁琐。其次，近期工作（Rudolph 等人，2026 (https://arxiv.org/html/2606.29457#bib.bib27)）认为，在二人零和不完美信息博弈中，*简单的通用策略梯度方法*（如 PPO）可以与这些机制相媲美或更优。如果是这样，那么对不完美信息下的交易建模就不需要前沿模型或复杂的求解器；在普通硬件上运行一个廉价的自我对弈循环可能就足够了。

我们在交易环境中测试这一点。我们的贡献是：（1）一个植根于收购拍卖文献的小型零和交易博弈家族，共享一个可重用的 `DealGame` 抽象层；（2）一个在精确可剥削性指标下，基于迭代次数*和*墙上时钟时间，对九种求解器进行同类比较的基准测试，涵盖精确（CFR、MMD、PSRO）、表格学习（REINFORCE）和深度学习（PPO、PPG、通用深度策略梯度、Deep CFR、NFSP）家族；（3）证据表明通用策略梯度方法 PPO 和 PPG 是最强的学习求解器，在相等的回合预算下优于 deep CFR 和深度虚拟博弈，而精确求解器在博弈规模小到可以列表化时仍然是最好的；（4）一项扩展研究，解释了为何学习方法仍然值得关注（它们每个目标的墙上时钟时间在博弈规模上大致恒定，而精确 CFR 则急剧增长），并坦诚地指出，在可枚举的大小范围内，PPO 从未超越 CFR，并且在最大的规模上未能达到目标；同时迈出了进入真正难处理规模的第一步，一个规模太大无法枚举的多信号拍卖，在该拍卖中，PPO 和 PPG 将一个*经过校准的*学习最佳响应可剥削性估计值驱动到其分辨率下限，低于朴素的无遮蔽投标人，这是一个精确求解器无法进入的领域；（5）从拍卖的真实自身利润贝叶斯-纳什均衡（我们精确求解，而非通过零和渲染）中获得的经济结果：投标人尽职调查的价值是正净的，并且在收取每个信号成本的情况下，利润最大化的尽职调查量是有限的，并且在我们检查的每个参数化中随着成本上升而下降，包括在对称收购均衡中两个投标人都选择尽职调查时（竞争使得这个结果比单边计算更保守），这为我们标题中的问题提供了一个模型内部的答案（其精细方案是特定于博弈的，并对投标网格分辨率敏感）；在真实均衡下，持股的稳健影响在于价值而非均衡投标。一切都在普通笔记本电脑 CPU 上运行，无需前沿模型 API 调用：单个实验需几分钟到几十分钟，完整的基准测试套件需几小时，而经济均衡计算只需几秒。

相对于 Rudolph 等人（2026 (https://arxiv.org/html/2606.29457#bib.bib27)），他们在可列表化规模的休闲基准上建立了策略梯度论点，我们的贡献是将其移植到经济交易博弈，通过墙上时钟缩放定律将精确与学习之间的交叉点与树可枚举性联系起来，并朝超越枚举迈出了第一步，提出了一个学习最佳响应下界，我们通过精确可剥削性对其进行校准。

## 2 相关工作

### 求解不完美信息博弈。

反事实遗憾最小化（Zinkevich 等人，2007 (https://arxiv.org/html/2606.29457#bib.bib33)）是表格标准；蒙特卡洛 CFR（Lanctot 等人，2009 (https://arxiv.org/html/2606.29457#bib.bib18)）对其进行采样，预测（乐观）变体通过外推下一个梯度来加速（Farina 等人，2021 (https://arxiv.org/html/2606.29457#bib.bib11)），而 Deep CFR（Brown 等人，2019 (https://arxiv.org/html/2606.29457#bib.bib4)）通过神经优势和策略网络对其进行扩展。ESCHER（McAleer 等人，2023 (https://arxiv.org/html/2606.29457#bib.bib22)）和 DREAM（Steinberger 等人，2020 (https://arxiv.org/html/2606.29457#bib.bib30)）是后来的降低方差的 Deep-CFR 系列方法。神经虚拟自我对弈（NFSP）（Heinrich 和 Silver，2016 (https://arxiv.org/html/2606.29457#bib.bib14)）和策略空间响应预言机（PSRO）（Lanctot 等人，2017 (https://arxiv.org/html/2606.29457#bib.bib19)）将虚拟博弈和双预言机引入深度环境；CFR 系列搜索是超人扑克智能体 Libratus（Brown 和 Sandholm，2018 (https://arxiv.org/html/2606.29457#bib.bib3)）的基础，而 ReBeL（Brown 等人，2020 (https://arxiv.org/html/2606.29457#bib.bib5)）将 RL 与搜索结合。磁镜下降（MMD）（Sokota 等人，2023 (https://arxiv.org/html/2606.29457#bib.bib29)）是一种正则化方法，既可作为表格求解器也可作为深度求解器具有竞争力；同样的正则化思想，通过深度 RL 作为正则化纳什动力学进行缩放，可以无模型且无列表化地掌握 Stratego（Pérolat 等人，2022 (https://arxiv.org/html/2606.29457#bib.bib25)）。PPO（近端策略优化）（Schulman 等人，2017 (https://arxiv.org/html/2606.29457#bib.bib28)）及其阶段性变体 PPG（阶段性策略梯度）（Cobbe 等人，2021 (https://arxiv.org/html/2606.29457#bib.bib9)）是 Rudolph 等人（2026 (https://arxiv.org/html/2606.29457#bib.bib27)）认为与所有这些方法具有竞争力的通用策略梯度方法；我们对两者都进行了评估。我们基于 OpenSpiel（Lanctot 等人，2019 (https://arxiv.org/html/2606.29457#bib.bib20)）构建。

### 拍卖与收购。

拍卖理论描述了私有价值和共同价值下的投标行为（Klemperer，1999 (https://arxiv.org/html/2606.29457#bib.bib16)），从 Wilson（1977 (https://arxiv.org/html/2606.29457#bib.bib32)）的共同价值模型到 Milgrom 和 Weber（1982 (https://arxiv.org/html/2606.29457#bib.bib23)）的关联价值推广，后者与我们构建的博弈最为接近。投标前内生的信息获取，即我们尽职调查问题的正式版本，由 Persico（2000 (https://arxiv.org/html/2606.29457#bib.bib26)）研究，在更广泛的机制设计和拍卖格式文献中，由 Bergemann 和 Välimäki（2002 (https://arxiv.org/html/2606.29457#bib.bib1)）以及 Compte 和 Jehiel（2007 (https://arxiv.org/html/2606.29457#bib.bib10)）研究；我们将信号精度视为外生，并仅在尽职调查截止研究中加入每个信号的成本。收购文献研究*顺序*先发和跳跃投标（Fishman，1988 (https://arxiv.org/html/2606.29457#bib.bib12)）以及持股效应（Bulow 等人，1999 (https://arxiv.org/html/2606.29457#bib.bib6)）；我们的密封同时拍卖刻意抽象掉了驱动先发优势的顺序信号传递，并孤立了持股的支付端渠道。私有信息下的双边贸易受到不可能性结果（Myerson 和 Satterthwaite，1983 (https://arxiv.org/html/2606.29457#bib.bib24)）的约束。一系列工作直接学习拍卖博弈的均衡，采用神经伪梯度上升（Bichler 等人，2021 (https://arxiv.org/html/2606.29457#bib.bib2)）和一阶梯度动力学（Kohring 等人，2023 (https://arxiv.org/html/2606.29457#bib.bib17)），并且学习同样被应用于谈判和多议题讨价还价（Chang，2020 (https://arxiv.org/html/2606.29457#bib.bib8)）。我们借用这些结构作为博弈定义，而非推导闭式均衡。

## 3 交易博弈

### 可重用抽象层。

`DealGame` 层集中处理交易博弈中两个相同且容易出错的组成部分：信息集构建（玩家的信息状态由其自身的私有令牌加上公共令牌构建，因此对手的私有抽取永远不会泄露进来，否则会静默地使可剥削性无效）以及零和收益合约。具体博弈只需提供其移动协议和经济参数。

### 共同价值收购拍卖。

两个投标人竞争一个共同价值 $W$ 的目标，$W$ 对双方均未知；每个投标人接收一个关于 $W$ 的带有每个投标人噪声的私有信号（即 Milgrom 和 Weber，1982 (https://arxiv.org/html/2606.29457#bib.bib23) 的关联共同价值设定）。密封第一价格投标同时提交；出价高者获胜，支付其出价，并获得 $W - \text{bid}$；输家获得零收益。共同价值结构引致了赢者的诅咒（Capen 等人，1971 (https://arxiv.org/html/2606.29457#bib.bib7)；Kagel 和 Levin，1986 (https://arxiv.org/html/2606.29457#bib.bib15)）：以获胜为条件是对 $W$ 的坏消息，因此不进行遮蔽的投标人预期会多付。

### 关于零和渲染的一个说明。

我们将每个博弈计分为零和，即*利润之差*，这是 Rudolph 等人（2026 (https://arxiv.org/html/2606.29457#bib.bib27)）的头对头基准，以便应用精确的二人可剥削性。这是一个有代价的刻意建模选择：与固定饼图的等分不同，减去对手的（内生的）利润并非保激励的仿射变换；它增加了一个竞争项，因此我们计算的均衡是相对化博弈的纳什均衡，而非底层一般和拍卖的贝叶斯-纳什均衡。我们将其用于求解器基准测试中的方法论扩展，其中精确的二人可剥削性是指标；但在涉及经济量时（信息不对称、尽职调查和持股研究，§5 (https://arxiv.org/html/2606.29457#S5)），我们从拍卖的真实自身利润贝叶斯-纳什均衡中读取结果（我们精确求解，§4 (https://arxiv.org/html/2606.29457#S4.SS0.SSS0.Px5)），而不是相对化的那个。`DealGame` 抽象层直接支持一般和合约。

### 持股变体。

持有持股 $\theta$ 的投标人如果获胜，只需购买剩余的 $(1-\theta)$，如果失败则收取 $\theta$ 的价格；$\theta=0$ 恢复基础拍卖。

### 私有价值拍卖。

一个结构上不同的博弈：每个投标人抽取并观察到其自身的独立私有价值，没有共同价值，也没有赢者的诅咒。将其包含在内可以防范共同价值结构的伪影。

## 4 方法

我们基准测试了九种求解器，分为三个家族。所有求解器均通过相同的精确指标评估：OpenSpiel 可剥削性，即 NashConv 减半，是两个玩家各自通过针对对方采取最佳响应所能获得收益的平均值。在纳什均衡处为零，越低越好；我们通过精确树遍历计算。

### 精确与表格化。

CFR（Zinkevich 等人，2007 (https://arxiv.org/html/2606.29457#bib.bib33)）；作为纳什求解器的磁镜下降（MMD）（Sokota 等人，2023 (https://arxiv.org/html/2606.29457#bib.bib29)）；带有精确最佳响应预言机和投影复制策略的 PSRO（Lanctot 等人，2017 (https://arxiv.org/html/2606.29457#bib.bib19)）。

在出价前需要多少尽职调查？棘手的收购拍卖中的学习

相似文章

A3M: 自适应、对抗性与多目标学习用于重复拍卖中的战略投标

PACT，LLM 正面交锋谈判基准。20 轮买卖双方议价博弈：每轮 AI 可互发消息，买方提交出价，卖方提交要价。若出价 ≥ 要价，则以中间价成交。涵盖数千场对局。

DRIVE：基于分布与检索增强的出价及价值评估

统一建模与探索的生成式自动竞价

一种具有双边信息不对称的Contextual-Bandit监督博弈

提交意见反馈