我们用物理学而非 Transformer 解决了自动化事件响应。以下是 TAME 治理如何实现这一目标。

Reddit r/ArtificialInteligence 新闻

摘要

本文介绍了 SentinelMesh,这是一个利用基于能量的模型(EBMs)和 TAME 治理来实现大规模事件响应的自主安全系统,并论证了在威胁建模方面,基于物理的方法优于大型语言模型(LLMs)。

免责声明:我是 SentinelMesh 自主 SOC(安全运营中心)项目背后的构建者(开源代码位于下方列出的 infosec-blueprints 仓库中)。本文旨在阐述技术决策,而非产品推销。 方法 我们用基于能量的模型(EBMs)取代了基于 Transformer 的方法,因为 LLM 的自回归特性假设威胁模式中存在顺序逻辑流——这在安全领域并不成立。相反,我们将威胁状态建模为能量景观中的极小值,代理(Agent)的决策在有限的能力域(“认知光锥”)内进行优化。架构如下: * 威胁评分:使用学习到的能量函数,而非逐 token 的概率计算 * 代理自主性:策略受形式化验证约束的限制(10 层安全堆栈) * 治理:通过 Merkle 证明链 + FIPS 140-2 HSM(硬件安全模块)签名实现 TAME 原则(可测试、可审计、可衡量、可解释) 基准测试 在 13+ SIEM(安全信息与事件管理)平台和财富 500 强 SOC 中的表现: * 警报到证据的响应时间:47 秒(相比手动 IR 的 2-4 小时) * 误报率降低:与 LLM 基线相比降低 73%(基于标注数据集测量) * 扩展性:6 个大陆级部署 + 2 个轨道节点;地理分布未导致性能下降 * 法医证据可采性:100% 的决策链可复现 局限性 1. 能量函数训练:需要精心策划的数据集(对抗性样本迁移效果不佳)。能解决许多零日漏洞类别。 2. 可扩展性权衡:与 LLM 的前向传播相比,EBM 在推理期间计算密集;我们通过分布式推理来抵消这一开销。 3. 代理故障模式:认知光锥防止了灾难级联,但减少了跨域关联检测(复杂的多阶段攻击需要人工审查,或超出 SLA/SLO 范围)。 4. 治理开销:与未记录的系统相比,TAME 审计追踪使存储增加了 3.2 倍。 经验教训 1. LLM 会产生逻辑幻觉。它们优化的是听起来合理的解释,而非准确的威胁建模。基于物理的模型可以捕捉这一点。 2. 有限自主性 > 无限自主性。狭窄且可验证的代理能力比通用推理更值得信赖。 3. 可解释性是有代价的。TAME 合规性前期需要投入工程时间,但能节省下游的 IR 周期。 4. 太空部署确实有用,而且听起来也很酷!轨道节点绕过地面延迟,同时最小化爆炸半径;对于全球事件关联和通信来说,其带来的运营复杂性和成本是值得的。 仓库:[Infosec Blueprints](https://github.com/w8mej/InfoSec-Blueprints) 脱敏仪表盘 [https://neosis.securesql.info/](https://neosis.securesql.info/) 技术细节:请参阅仓库中的 [Start Here](https://github.com/w8mej/InfoSec-Blueprints/blob/main/reference/00-START-HERE.md)。 乐意探讨信息安全中的基于能量的模型、AI 驱动的 SRE & SOCs / NOCs、紧急通信、自主代理设计或法医密码学方法。
查看原文
查看缓存全文

缓存时间: 2026/05/12 04:39

# 规模化自主事件响应:能量基模型(EBM)与 TAME 如何取代安全领域的大语言模型猜测 来源:https://www.securesql.info/2026/05/01/infosecblueprints/ ## 财富十强企业的安全运营中心(SOC)如何仅用 13 人(横跨六大洲……乃至太空)处理每日 10,000+ 条警报 你每天要处理 10,000 条警报。你的 SOC 团队?只有 15 人。他们分散在六大洲。哦,你还把卫星也纳入了混合部署。 (是的,就是卫星。稍后会提到这一点。) 一些财富十强企业的安全团队正面临这一确切场景,但他们并未被淹没。他们的秘诀并非在每个地区再招聘 40 多名分析师,而是 **SentinelMesh**。这是一个全球分布的自主安全系统,彻底颠覆了我们构建威胁模型的方式。 ## 安全领域中标准 AI 的问题 大多数“AI 驱动”的 SOAR(安全编排、自动化与响应)工具只是将大语言模型(LLM)套用在现有的剧本上。但关键在于:标准 LLM 预测的是文本。它们猜测下一个词。这对起草电子邮件很棒,但对于威胁建模来说却糟糕透顶。 它们会遗漏复杂、非线性的关联。它们会自信地产生事实性幻觉(幻觉)。最糟糕的是,它们无法实时权衡相互竞争的各种假设。 如果你想要真正的全球自主性,你需要将威胁视为*能量景观(energy landscapes)*而非文本提示的智能体。这就是 **Morphogenic AI SOC** 中的**能量基模型(EBM)**发挥作用的地方。 ## SentinelMesh 的方法:EBM + 分布式治理 SentinelMesh 用统计物理学取代了文本预测。EBM 不问“下一个词是什么?”,而是问“对于这一威胁,最低能量(最稳定)的解释是什么?” 我将此部署在北美、欧洲、亚太、南美、非洲和中东。我还在低地球轨道上运行冗余评分智能体。为什么选择太空?说实话,听起来很酷。延迟特性实际上有助于我们同步分布式卫星节点,以进行关键监控和在出现流氓操作时的 TAME 锁定努力。然后使用 torrents 和区块链技术在全球范围内锁定取证证据链。 以下是这种方法为何更有效的理由: - **它发现隐藏威胁。**两个轻微指标单独看可能无害,但结合在一起就很危险。标准 LLM 会错过这一点。EBM 能立即捕捉到所有六大洲的这些交互效应。 - **没有单点故障。**地理分布意味着区域性中断不会导致全球性级联故障。智能体在毫秒级而非分钟级达成共识。 - **诚实的置信度评分。**EBM 在数学上被构建用于表达不确定性。高能量意味着系统不确定。低能量意味着它已锁定。 - **实时假设测试。**系统同时为多种威胁理论打分。一旦新证据出现,整个景观在全球各地都会发生转变。想象一下风吹过空中漂浮的气泡,受到不同气压的扰动。 每个行动都受到严格治理的支持。它针对真实全球数据进行测试,可通过加密证明进行审计,可通过置信度评分进行衡量,并且完全可解释。 结果如何?你可以在地球上的任何地方(或其上空)在 **47 秒内**获得法庭可接受的取证证据。 ## 它是如何实际扩展的 **智能边界。**智能体仅在其实际理解的域内采取行动。无论它们是在东京、伦敦还是太平洋上空盘旋,在执行任何操作之前都会通过 10 层安全检查。这包括爆炸半径计算以及与对等智能体核对。如果它们不确定,就会升级;如果确定,就会执行——始终带有 5 分钟的撤销窗口。 **通用翻译。**妥协指标(IoC)会在 Splunk、Chronicle、Elastic、QRadar 和 Azure Sentinel 等平台之间自动翻译。你可以在任何 SIEM 和任何地区获得统一的调查。 **自动调优。**随着你的全球警报量激增,系统会进行适应。它会自动收紧置信度阈值。更多的警报只会让它更擅长区分威胁,从而将你的全球人员数量保持在 15 人左右。 ## 实时观看 想看看它的作用吗?查看全球自主响应的实时情况: **→ https://neosis.securesql.info (https://neosis.securesql.info/)** 实时仪表板跟踪: - **全球智能体健康状态:**查看智能体在所有大陆和轨道节点上的活动。 - **活跃威胁:**观察攻击如何击中全球各地的屏障,按地区和严重程度映射。 - **爆炸半径地图:**审查自主行动的前执行影响和遏制边界。 - **区域 ATT&CK 热力图:**跟踪攻击者战术相对于你的防御措施。 - **合规状态:**所有司法管辖区的 NIST、ISO 27001、GDPR、PCI-DSS 等的实时审计源。 - **卫星遥测:**监控来自轨道节点的信号完整性和评分延迟。 ## 数据指标 - **47 秒:**从初始警报到签署的、法庭可接受的证据。 - **99.9997% 正常运行时间:**内置的六大洲和轨道冗余。 - **99.95%+ 准确率:**常规全球事件(通过 EBM 对等验证达到 99.998%+)。 - **10 层安全堆栈:**保持自动化行动有界且可逆。 - **78+ 功能:**涵盖 4 个运营层级。 - **971+ 测试:**取证完整性的端到端验证。 - **13+ SIEM:**原生支持主要厂商平台。 - **零云锁定:**同时在 AWS、GCP、Azure、Oracle、阿里云和 NVIDIA 上部署。 ## EBM vs LLM | 标准 LLM | 能量基模型 (EBM) | | :--- | :--- | | 预测下一个词 | 评分实际威胁概率 | | 错过复杂关系 | 捕捉叠加的交互效应 | | 虚假置信度 | 内置、数学上合理的置信度评分 | | 需要为新威胁重新训练 | 实时适应威胁景观 | | 困惑时产生幻觉 | 明确标记不确定性 | | 本地推理 | 全球构建共识 | EBM 从根本上就是为理解安全而构建的。LLM 则不然——特别是在全球规模上。 ## 背后的科学 我是基于硬核科学构建的,而非营销炒作。SentinelMesh 依赖于已发表的研究: - **能量基模型**(统计物理学和机器学习) - **复杂系统理论**(自组织运营) - **博弈论**(跨区域多智能体共识) - **取证密码学**(防篡改和全球不可变性) ## 法律声明 *本存储库包含受 MNDA(相互保密协议)限制的机密文档。由于法律和知识产权义务,我已删减了具体的技术实现、EBM 训练架构和轨道节点规格。预授权合作伙伴可以访问完整规格。* ## 了解更多 **→ 探索 SentinelMesh (https://github.com/w8mej/InfoSec-Blueprints)** **→ 查看实时仪表板:https://neosis.securesql.info (https://neosis.securesql.info/)** --- **总结:**当你的竞争对手启动区域聊天模型来猜测事件结果时,你可以使用基于物理的模型来明确地为它们打分。这就是 15 人如何在不 burnout 的情况下运营全球财富十强 SOC 的方式。是的,这也是如何让你可以说你在太空中有智能体的方式。

相似文章

TMAS:通过多智能体协同扩展测试时计算

Hugging Face Daily Papers

TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。

评估自主系统的伦理问题

MIT News — Artificial Intelligence

MIT研究人员推出SEED-SET框架,利用LLM主动评估自主系统在高风险场景(如电力分配)中的伦理一致性,以弥补静态测试方法的不足。