@DamiDefi: https://x.com/DamiDefi/status/2058137074595750242

X AI KOLs Timeline 2026/05/23 10:44 工具

ai-agents portfolio-management claude blackrock factor-investing adversarial-checking personal-project

摘要

作者使用Claude构建了一个精简的三代理版本，该版本源自BlackRock论文中描述的50代理AI投资组合系统。该系统生成了令人意外的体制分析和对抗性批评，从而导致了实际的投资组合调整。

https://t.co/QCRXKmOR7n

查看原文

查看缓存全文

缓存时间: 2026/05/23 22:17

贝莱德前首席发布了一个50个智能体的投资组合系统。我用Claude搭建了一个精简版。

我把贝莱德前首席的一篇论文喂给了Claude。论文描述了50个AI智能体管理整个投资组合。

Andrew Ang曾负责贝莱德的因子投资部门。他如今与人合著了一篇论文，描述了一个由50个AI智能体组成的流水线，可以生成资本市场假设，使用20种竞争方法构建投资组合，每个智能体需要评审另外两个，进行投票，然后为非技术利益相关者撰写董事会备忘录。

整个过程无需人类做出任何分析决策。

我下载了论文，喂给Claude，然后花了一个周末搭建了同一架构的精简版，只有三个智能体，而不是五十个。

第一个决定是砍掉什么。论文中的50个智能体分布在五层。我保留了包含核心逻辑的三个：宏观周期智能体——其输出决定后续所有内容；资产分析智能体——使用三种竞争方法估算回报；对抗性质疑者——其任务是找出前两个智能体产出的一切错误。我砍掉了20种竞争性的投资组合构建方法和同行评审投票层，因为那些需要我尚未具备的基础设施。我保留的是专业化、对抗性检查和反馈循环。

第一次完整运行产生了一个我没想到的结果。

智能体1输出 —— 宏观周期

周期：晚期周期，伴有上升的滞胀风险
信心：7/10
主要信号：收益率曲线在短暂正常化后再次倒挂，高收益利差扩大，核心PCE连续第二个月重新加速
影响：降低股票久期敞口，偏好短久期信用而非长期债券，持有较高现金

智能体2输出 —— 美国股票

方法1（10年历史）：预期回报13.2%
方法2（希勒市盈率估值隐含）：4.8%
方法3（周期调整）：5.9%
综合：5.6%（加权：50%估值隐含，35%周期调整，15%历史）
标记：历史预期与估值隐含之间的760个基点差距是自2007年以来最宽的

智能体3输出 —— 攻击

智能体3没有攻击回报估算。它攻击了周期分类本身。

它指出，收益率曲线倒挂和信用利差扩大在真正的衰退到来之前都有6到18个月的前置时间。这意味着智能体2把衰退期的回报折现应用在了仍然运行在功能正常的晚期周期环境中的资产上。相关性假设是针对尚未到来的恶化情况校准的。

然后它指出了同时打破一切的场景：

软着陆情境下，PCE在没有衰退的情况下重新加速。美联储在第三季度前按兵不动。股票倍数因预期最终降息而扩张。在该情境下，估值隐含的估算错了，因为倍数无论如何都会扩张。周期分类也错了，因为周期延长了。投资组合最终会在那些智能体标记为风险的确切条件下，在市场上涨时低配股票。

我之前没有考虑过这种场景。我在那周结束前更新了我的股票仓位。

论文实际构建了什么

研究人员在2026年3月针对一个真实的机构委托运行了完整的流水线：18个流动性资产类别，涵盖6个股票、8个固定收益和4个另类投资类别。目标实际回报为CPI加3%到4%。波动率区间8%到12%。最大回撤为-25%。相对于60/40基准的跟踪误差上限为6%。

该架构围绕投资政策声明（IPS）组织，这是与人类投资组合经理相同的指导文件。每个智能体都阅读它。每个输出都必须满足它。这不是一个细节。IPS作为约束条件，防止流水线针对委托之外的其他目标进行优化。

流水线运行在五个不同的层级上。

第一层：宏观智能体使用宏观经济数据、市场指标和实时网络搜索对当前经济周期进行分类。其输出向下游流向所有其他智能体。在此之前，其他任何环节都不运行。

**第二层：资产类别智能体（×18，并行运行）**每个资产类别一个智能体。使用六种不同方法估算预期回报，然后将它们混合成第七个综合值。一个LLM作为评委的步骤读取所有七个结果及当前宏观周期和估值，选择最终的估算，并附上明确的权重和书面理由。

**第三层：投资组合构建智能体（×20）**每个智能体使用不同方法构建投资组合，从简单规则到复杂的优化。第21个研究智能体扫描学术文献，提出流水线中尚未采用的方法。一个独立的对抗性多样化者故意构建与所有其他智能体共识差异最大的投资组合。

第四层：同行评审和投票每个智能体同时评审另外两个——一个使用类似方法，一个使用不同方法。所有评审同时发布。智能体随后使用波达计数排名进行投票。最终入围名单必须包括至少四个大类中的三个类别的方法。

第五层：元智能体在每个再平衡周期后，将过去的预测与实际回报进行比较，识别系统性弱点，并更新控制其他智能体的代码和指令。所有更改都被记录下来。系统自我重写。

流水线实际发现了什么

2026年3月运行的结果值得理解，因为它们展示了当人类偏见从分析过程中移除时会发生什么。

宏观智能体将当前环境分类为晚期周期并带有滞胀风险。

估值调整后的预测显示了跨资产类别的一致模式：

美国成长股：预测比历史综合值低2.0个百分点
美国大盘股：比综合值低1.1个百分点
新兴市场：几乎未调整

智能体并非全面悲观。它们特别怀疑那些当前价格已经隐含低未来回报资产的回溯性估算。一个锚定于历史平均值的人类分析师会产生截然不同的输出。

最终投资组合配置：

股票：44.9%（相对于标准60/40中的60%）
债券：41.7%（大致持平）
现金：8.1%

1996年至2026年的回测结果：

回报特征：与60/40几乎相同
峰谷回撤：25.6% vs 60/40的34.3%

相同的回报。少8个百分点的回撤。这就是该架构的全部论据。

研究人员坦诚地说，一次运行只是一个概念验证，而非经过验证的策略。论文并非声称构建了一个更好的对冲基金。而是声称构建了一个可复制的流程，消除了机构投资组合管理中的带宽瓶颈。

为什么这个架构对任何有Claude的人都是可访问的

我从论文中获得的见解不是你需要50个智能体。而是流水线的结构——专业化角色、同行评审、对抗性检查和约束文件——可以在任何规模下重建。

论文中的三个组件在今天就可以在Claude Projects中完全实现：

专业化——每个智能体只有一个任务和一个输出格式。它不做一般性分析。周期智能体不评论估值。资产智能体不评论宏观。这种约束迫使每个输出都追求深度而非广度。

对抗性多样化者——专门设计来与共识意见不一致的智能体是该架构中最有价值的元素。大多数构建多智能体系统的人让每个智能体都试图找到正确答案。这篇论文故意包含了一个其任务是找到最不同答案的智能体。这种张力正是风险管理来源。

元智能体反馈循环——每个周期后，将表现与预测进行比较，表现不佳的智能体将获得更新后的指令。系统自我改进。这就是将多智能体流水线与一个稍复杂的提示区分开来的关键。

我构建的三个智能体版本

我没有运行50个智能体。我构建了三个覆盖流水线核心逻辑的智能体，无需机构基础设施。

智能体1：宏观周期智能体

该智能体首先运行，其输出决定后续所有内容。它读取当前宏观数据、近期美联储沟通和市场指标，然后输出一个单一的周期分类，并附上明确推理。

提示

你是一名宏观周期分析师。你唯一的任务是对当前经济环境进行分类。搜索网络获取以下当前数据：GDP增长轨迹、通胀趋势、就业数据、收益率曲线形状和信用利差。只输出以下结构：周期：[扩张 / 晚期周期 / 衰退 / 复苏] 信心：[1-10] 主要信号：[驱动此分类的最重要单一数据点] 风险：[可能导致此分类错误的最大单一因素] 对资产配置的影响：[一句话说明该周期在历史上对投资组合定位意味着什么] 不要生成经济状况摘要。生成一个带有明确推理的周期分类。此输出将决定后续两个智能体。

智能体2：资产分析智能体

该智能体每个要分析的资产类别运行一次。它将智能体1的周期分类作为必需输入，并相应调整其预期回报估算。

提示

你是评估[资产类别]的资产类别分析师。来自宏观智能体的当前宏观周期：[粘贴智能体1输出] 使用三种不同方法估算该资产类别未来12个月的预期回报：方法1：过去10年的历史平均回报方法2：当前估值隐含回报（股票用希勒市盈率，债券用到期收益率）方法3：周期调整回报（根据提供的宏观周期调整你的估算）然后生成一个综合估算，明确对每种方法加权。说明你分配给每种方法的权重及理由。如果当前估值表明历史回报有折现风险，请标记。标记任何可能导致所有三种估算同时错误的因素。输出格式：三种方法估算、综合值、权重和标记。

智能体3：对抗性质疑者

这是系统中最重要的智能体。它的任务不是找到正确答案。它的任务是找到智能体1和2产出的一切错误。

提示

你是投资组合构建流水线中的对抗性智能体。你的任务不是同意之前的分析。你的任务是找出其中可能出错的任何事情。以下是宏观周期分类：[粘贴智能体1输出] 以下是资产类别回报估算：[粘贴智能体2输出] 从四个维度攻击此分析：1. 周期误分类：存在什么证据表明周期分类是错误的或即将改变？指出具体数据点。2. 估值盲点：哪些资产类别的下行风险在当前估算中最被低估？为什么？3. 相关性假设：如果两个历史上不相关的资产同时移动，这个投资组合会发生什么？哪一对风险最大？4. 没人建模的场景：描述具体的宏观场景，该场景会使综合估算在大多数头寸上同时出错。不要客气。不要用积极面来平衡批评。你的价值在于找出其他智能体遗漏的东西。

这个设置能产生什么

按顺序运行这三个智能体产生的效果，与用单个提示让Claude分析投资组合有本质区别。

专业化迫使每个智能体在单一问题上深入，而不是生成一个宽泛的概述。周期智能体不评论估值。资产智能体不评论宏观。每个输出都比通用分析提示返回的结果更窄且更有用。

对抗性智能体是大多数人在构建自己的多智能体系统时跳过的一步。也正是这一步产生了最有用的输出。

大多数构建此类流水线的人让每个智能体都试图找到正确答案。这篇论文故意包含了一个其全部使命是找到最不同答案的智能体。这种张力正是风险管理来源。没有被攻击过的分析不是分析。那是带有额外步骤的确认偏误。

上面的例子就是实践中的样子。智能体3没有发现数据错误。它发现了两个智能体之间的逻辑不一致——两者单独来看都是正确的，但共同产生了有缺陷的综合结果。周期分类对于当前时刻是准确的。估值调整对于当前时刻是准确的。但是在一个功能正常的晚期周期环境中应用衰退期的折现是一个范畴错误，而且没有任何单次提示分析能够发现它，因为没有机制来检查分析的一个部分与另一个部分是否一致。

这就是对抗性智能体的结构性价值。它不需要比其他智能体更聪明。它只需要寻找它们遗漏的东西，而不是确认它们发现的东西。

你可以添加的元智能体层

论文中最具差异化的特性是元智能体在将预测与实际回报比较后重写智能体代码。这需要系统运行多个周期并记录输出。

轻量版：每个周期后，针对你记录的输出运行以下提示。

提示

以下是来自此投资组合分析流水线最近[N]个周期的输出：[粘贴记录输出] 以下是每组预测之后的实际回报：[粘贴实际回报] 识别：1. 哪个智能体系统性地错误？方向是什么？ 2. 哪个周期分类的预测准确性最差？ 3. 哪个资产类别的估算最持续地偏离？误差方向性如何？ 4. 在跟踪记录最差的智能体的指令中，应该改变什么？为表现不佳的智能体输出修订后的指令。具体解释原始指令中的什么导致了系统性错误。

这就是反馈循环，它使系统随着时间的推移不断改进，而不是重复运行相同的分析并期待不同的结果。

诚实评估

完整的50个智能体流水线需要：

工程基础设施
跨18个资产类别数据源的API连接
覆盖多个再平衡周期的自动调度
元智能体多月的校准期

我构建的不是那个。

我构建的是Claude原生版本的三个最重要的结构元素。它可以在一个下午内在Claude Projects中运行。它不会产生机构级的投资组合配置。它产生了一个结构化的分析过程，比单次提示分析严格得多，因为它在每一步都强制明确推理，然后在你采取行动之前攻击该推理。

论文的核心论点：代理型AI将投资者的角色从分析执行转变为监督。这种转变不需要50个智能体才能成为现实。三个智能体运行一个带有对抗性检查的结构化过程，会提高你产出的分析质量，无论委托是你自己的投资组合还是机构投资组合。

该论文公开免费，可在 arxiv.org/pdf/2604.02279 获取。下载它，上传到Claude Project作为上下文，然后按顺序运行上面的三个提示。架构部分从第4页开始。智能体角色描述足够具体，可以扩展为额外的智能体。

@DamiDefi: https://x.com/DamiDefi/status/2058137074595750242

贝莱德前首席发布了一个50个智能体的投资组合系统。我用Claude搭建了一个精简版。

论文实际构建了什么

流水线实际发现了什么

为什么这个架构对任何有Claude的人都是可访问的

我构建的三个智能体版本

这个设置能产生什么

你可以添加的元智能体层

诚实评估

相似文章

为股票、基金和投资交易构建的开源反方辩手

@Voxyz_ai: https://x.com/Voxyz_ai/status/2062246736257556654

@leopardracer: https://x.com/leopardracer/status/2058949350315667829

@0xCodez: https://x.com/0xCodez/status/2058513716509913581

AI-Trader：在实时金融市场中对自主智能体进行基准测试

提交意见反馈