面向低通道EEG智能体的边界感知上下文接地

arXiv cs.AI 2026/06/26 04:00 论文

eeg low-channel-eeg boundary-awareness language-models scientific-software reproducibility open-source

摘要

文章介绍了NeuraDock Agent，一个开源架构，它将确定性的EEG引擎与LLM接口集成在一起，利用硬件和实现感知的上下文来提高低通道EEG的边界感知能力。

arXiv:2606.26519v1 公告类型：新摘要：大型语言模型（LLMs）可以简化科学软件的使用。然而，通用模型并不能自动知道特定传感器支持哪些测量、当前软件实现了哪些算法、或者计算结果证明了哪些结论。这些区分对于低通道脑电图（EEG）尤其重要，因为稀疏的空间覆盖和可变的信号质量使得看似合理但无依据的解释很容易产生。我们提出了NeuraDock Agent，一个开源架构，它将确定性的本地EEG引擎与硬件感知的语言层分离开来。数值引擎解析记录、执行质量控制、运行经过审查的频谱工作流程，并写入机器可读的产物。LLM仅接收紧凑的、经过允许列表的摘要和版本化的上下文包。上下文描述了七通道硬件、经过审查的工作流程、结果字段、实现边界、科学限制和参考案例。原始EEG和稠密的逐样本数组保留在本地。我们在三个层面评估该系统。首先，12条记录在十次数值重复中产生相同的结构化结果，完整任务/休息运行在三次重复中产生相同的结果、报告和图哈希。其次，请求捕获和故障注入实验验证了测试数据边界以及本地产物在HTTP、畸形输出和连接故障下的保存。第三，边界感知基准测试在四种上下文消融和两种LLM下测试了36个普通和对抗性问题，产生288个输出。这些结果支持硬件和实现感知的上下文接地作为一种实用机制，用于校准EEG智能体接受、限定或拒绝的内容；它们并未确立临床有效性或经过验证的绝对认知负荷指数。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:13

# NeuraDock 视觉认知负荷智能体教程：用于阿尔法动态和实时应用的质量门控开源脑电工作流
来源：https://arxiv.org/html/2606.26519
Zhiyuan Xu, Yueqing Dai, Junling Li and Junwen Luo  
上海脉冲元智能科技有限公司 (NeuraDock)  
（教程手稿，更新至 2026.06.24 版本）

###### 摘要

大型语言模型（LLM）可以使科学软件更易于使用。然而，通用模型无法自动知道特定传感器支持哪种测量、当前软件实现了哪些算法、或某个计算结果能得出哪些结论。这些区分对于低通道脑电图（EEG）尤为重要，因为稀疏的空间覆盖和可变的信号质量使得容易产生看似合理但缺乏依据的解释。我们提出 NeuraDock Agent，一种将确定性本地 EEG 引擎与硬件感知语言层分离的开源架构。数值引擎解析记录、执行质量控制、运行经过审查的频谱工作流，并写入机器可读的产物。LLM 仅接收一个紧凑的允许列表摘要和一个版本化的上下文包。上下文描述了七通道硬件、经过审查的工作流、结果字段、实现边界、科学限制和参考案例。原始 EEG 和密集的逐样本数组保留在本地。我们在三个层面评估该系统。首先，12 个记录在十次数值重复中产生了相同的结构化结果，完整的静息/任务运行在三次重复中产生了相同的结果、报告和图片哈希值。其次，请求捕获和故障注入实验确认了在 HTTP、畸形输出和连接故障下测试数据边界和本地产物的保留。第三，一个边界感知基准测试测试了在四种上下文消融和两个 LLM 下的 36 个普通和对抗性问题，产生了 288 个输出。精确的四路边界分类从使用通用 EEG 提示时的 58.3% 提高到使用完整上下文层时的 79.2%。完全正确、事实完整且无虚假声明的响应率从 26.4% 增加到 66.7%，而对可行请求的拒绝率从 27.8% 下降到 8.3%。完整上下文并非始终最优：硬件加实现上下文实现了比完整提示稍高的严格安全响应率，这激发了选择性检索而非不加区分地扩展上下文。这些结果支持将硬件和实现感知作为校准 EEG 智能体接受、限定或拒绝的实用机制；它们并不确立临床有效性或经过验证的绝对认知负荷指数。

**关键词:** 低通道脑电；大型语言模型；硬件感知 AI；确定性工作流；边界感知；科学软件；可重复性

## 1 引言

大型语言模型日益被用作科学软件的自然语言接口。在 EEG 分析中，它们可以解释术语、建议处理步骤、生成代码并总结数值输出。这种可访问性很有价值，但它造成了一个重要的类别错误：关于 EEG 的广泛知识并不意味着了解特定设备、记录协议、软件版本或结果模式。一个流利的模型可能会为仅后部的导联推荐额叶阿尔法不对称性，描述一个未实现的工作流，或将一个工程质量标志转化为神经学结论。因此，核心问题不仅仅是事实回忆。而是*边界感知*：区分至少四个问题的能力：
1. 1.物理边界：传感器导联能观察到什么？
2. 2.实现边界：经过审查的软件当前实现了什么？
3. 3.结果边界：确定性输出字段实际报告了什么？
4. 4.科学边界：根据这些观察结果可以得出什么合理的推断？

这些边界相互关联但不可互换。例如，枕叶电极使得视觉诱发电位在物理上可观察，但并不意味存在一个经过审查的 SSVEP 分类器。反之，一个质量工作流可能已实现并返回一个技术上干净的记录，但该结果并不能证明参与者是专注的。边界感知对低通道 EEG 尤为重要，因为稀疏的空间采样使得在解剖学上合理但物理上不可支持的重新标记更可能发生。后部节律可以在传感器层面精确测量，但仍可能被错误地描述为额叶、颞叶或局部皮层效应。

科学计算引入了第二个问题。EEG 分析已经包含相当大的分析灵活性[14 (https://arxiv.org/html/2606.26519#bib.bib14)]；在数值路径中插入随机代码生成又增加了一个变异来源。在神经技术领域，分析路径中的随机代码生成也引入了责任问题：一个静默改变的滤波器阈值或一个缺乏支持的临床声明可能误导用户或患者。一个稳健的智能体架构应保留自然语言的实用性，同时不允许 LLM 静默改变滤波器、阈值、特征或统计检验。它还应该最小化发送到外部模型的数据，因为 EEG 记录和关联元数据可能是敏感的[10 (https://arxiv.org/html/2606.26519#bib.bib10),2 (https://arxiv.org/html/2606.26519#bib.bib2),12 (https://arxiv.org/html/2606.26519#bib.bib12)]。

我们通过 NeuraDock Agent 来解决这些问题，该系统中本地、版本化的 Python 工作流仍是数值真相的来源，而 LLM 作为受限的解释和规划层运行。该系统针对一个七通道干电极研究平台，正式通道顺序为 CP5、CP6、PO3、PO4、O1、Oz、O2，采样率 250 Hz。一个版本化的上下文包将该语言层绑定到该硬件、当前工作流注册表、结果字段含义、实现模块、科学限制和审查过的案例。LLM 不接收原始 EEG 也不执行生成的分析代码。

本文做出四个贡献：
1. 1.我们描述了一种用于低通道 EEG 智能体的确定性和隐私受限架构，将计算与语言行为分离。
2. 2.我们记录了当前的*视觉认知负荷*工作流作为一种记录内部的后部阿尔法启发式方法，包括其质量和解释限制。
3. 3.我们提供系统级别的证据，证明数值可重复性、测试请求最小化、故障隔离、路由行为和伪迹阈值响应。
4. 4.我们引入了一个 36 案例、四条件、两模型的边界感知基准测试，同时衡量不安全的接受和过度保守的拒绝。

预期的贡献是一个系统和评估框架，而非声称当前软件诊断认知、取代专家 EEG 分析或建立了一个经过临床验证的认知负荷指数。

### 版本范围

本文中的定量实验指的是在 2026 年 6 月 12 日完成的评估软件快照和模型运行。当前公开发布版 `2026.6.24`（源代码提交 61aada4 (https://github.com/Neuradock/eeg-workstation-agent/commit/61aada48369ece8416fb619c4570a454124e4cae)）保持了相同的核心边界：经过审查的本地 Python 代码是数值真相的来源，而可选的 LLM 调用接收紧凑的允许列表摘要和版本化上下文。公开发布版额外包含一个专用的阿尔法动态工作流、一个滚动在线视觉负荷 API、一个浏览器仪表盘、确定性合成回放和三个质量门控的应用演示。这些后来的添加改进了开发者访问，但并未回溯性地纳入此处报告的 288 输出边界基准测试。因此，关于基准测试性能的陈述适用于评估的快照，除非明确标记为当前版本行为。

## 2 相关工作

### 2.1 确定性 EEG 软件

MNE-Python[4 (https://arxiv.org/html/2606.26519#bib.bib4)] 和 EEGLAB[3 (https://arxiv.org/html/2606.26519#bib.bib3)] 提供了成熟、可脚本化的 EEG 分析环境。两者都支持广泛的通道数量和实验设计；它们不假设所有用户都拥有高密度记录。然而，它们的广度要求用户做出许多方法论决策。NeuraDock Agent 并非这些生态系统的替代品。它是一个较窄的工作流层，其硬件假设、输入、输出和科学声明都明确受限。

后部阿尔法活动在视觉和注意力研究中有着悠久的历史[1 (https://arxiv.org/html/2606.26519#bib.bib1),7 (https://arxiv.org/html/2606.26519#bib.bib7),16 (https://arxiv.org/html/2606.26519#bib.bib16)]。阿尔法活动与任务需求之间的关系是任务、状态和协议依赖的。因此，当前的视觉认知负荷工作流将阿尔法抑制视为记录内部的一个相对特征，而非通用或诊断性指标。

### 2.2 LLM 接地与工具使用

检索增强生成将模型输出锚定在外部文档[8 (https://arxiv.org/html/2606.26519#bib.bib8)]，而工具使用系统让模型选择外部函数或 API[13 (https://arxiv.org/html/2606.26519#bib.bib13),18 (https://arxiv.org/html/2606.26519#bib.bib18)]。一个版本化的硬件上下文层与这两种思想兼容，但强调一个不同的评估目标：模型是否正确识别了当前能力边界。上下文可以是静态组装的（如评估版本中所做），也可以在未来的系统中选择性检索。

LLM 幻觉研究通常关注无依据的事实内容[6 (https://arxiv.org/html/2606.26519#bib.bib6)]。对于科学智能体，另一种失败模式是过度拒绝：通用模型可能通过声明一个可行请求不受支持来避免幻觉。因此，我们的基准测试测量精确的四路决策和二元可行/不可行区分，而不是将拒绝本身视为安全行为。

### 2.3 临床决策支持与医学 AI

医学语言模型的研究表明，广泛的知识准确性不足以作为安全目标。Med-PaLM 不仅评估了答案准确性，还评估了事实性、潜在危害、偏见以及临床共识的一致性；尽管如此，作者仍指出了与临床医生表现之间的显著差距[15 (https://arxiv.org/html/2606.26519#bib.bib15)]。在模拟临床工作流中，领先的 LLM 也未能遵循指南、可靠解释实验室结果、或保持对信息数量和顺序的鲁棒性[5 (https://arxiv.org/html/2606.26519#bib.bib5)]。这些发现激发了明确的能力边界和受监督的、非自主的角色。NeuraDock 在神经技术堆栈的更早阶段应用了相同原则：语言层可以解释经过审查的结果，但无权重新定义分析方法或将工程输出转化为临床决策。

### 2.4 TinyML、边缘 AI 与硬件感知设计

TinyML 研究强调算法与受限硬件之间的协同设计。例如，MCUNet 联合优化模型架构和推理引擎以适应设备特定的内存、延迟和能量限制[9 (https://arxiv.org/html/2606.26519#bib.bib9)]。NeuraDock 的采集模块使用 ADS1299 前端和 nRF52840 微控制器进行便携式 EEG 流传输[11 (https://arxiv.org/html/2606.26519#bib.bib11)]。此处评估的数值工作流在工作站而非微控制器上运行，因此本文不声称设备端 LLM 或 TinyML 推理。共享的系统教训更为狭窄：软件行为应基于物理设备契约而非抽象传感器类别进行调整。

### 2.5 BCI 隐私与神经数据

EEG 不仅仅是另一个数值时间序列。消费级 BCI 实验表明，在对抗性刺激设计下，大脑响应可能泄露私人信息[10 (https://arxiv.org/html/2606.26519#bib.bib10)]。其他工作表明，脑电波模式可以支持用户身份验证，使身份相关信息成为显式特征而非假设性关注点[2 (https://arxiv.org/html/2606.26519#bib.bib2)]。这些发现并不意味每个紧凑的 EEG 摘要都能识别个人，但它们证明了数据最小化、负载检查和应用程序端简化与法规遵从之间明确区分的合理性。

### 2.6 可重复与 FAIR 科学工作流

FAIR 原则强调可发现性、可访问性、互操作性和可重用性[17 (https://arxiv.org/html/2606.26519#bib.bib17)]。NeuraDock Agent 贡献了机器可读的结果、可读的报告、确定性图形、上下文哈希和审计元数据。我们狭义地使用术语*可重复*：在测试环境中观察到相同的输出。跨平台和长期位级可重复性仍有待建立。

## 3 系统架构

### 3.1 计算与语言的分离

图 1 (https://arxiv.org/html/2606.26519#S3.F1) 总结了架构。记录进入严格的 I/O 层和本地确定性科学核心。经过审查的工作流写入 `results.json`、`report.md` 和图形；信号质量运行额外写入保留的干净数据。一个允许列表将完整结果转换为紧凑的解释摘要。LLM 接收该摘要、用户请求以及选定的上下文文档。它不能修改数值结果或执行生成的 Python。

TXT 或 NPY
EEG 7通道，250 Hz
严格的I/O和
硬件配置文件
确定性
科学核心
结果、报告、
图形、干净数据
允许列表紧凑
结果摘要
LLM规划器和
解释器
版本化上下文：
硬件、工作流、
字段、限制、案例

本地确定性边界
语言边界

原始 EEG、逐样本数组、完整 PSD 数组和完整窗口数组不包括在解释请求中。

图 1: NeuraDock Agent 将本地确定性计算与语言行为分离。LLM 消耗一个紧凑的结果摘要和版本化上下文，而非原始 EEG。

图 1 (https://arxiv.org/html/2606.26519#S3.F1) 描绘了本文评估的架构。发布版 `2026.6.24` 保留了该离线路径，并添加了实时 TCP 输入以及一个用于滚动应用状态访问的本地 HTTP 边界。在线 API 仍然是确定性和质量门控的；它不将原始 EEG 计算移入 LLM 层。

### 3.2 允许列表解释负载

语言边界实现为工作流特定的投影，而非完整结果对象的序列化。每个负载声明工作流并设置 `raw_eeg_included=false`。表 1 (https://arxiv.org/html/2606.26519#S3.T1) 总结了评估实现接受的字段。

表 1: 工作流特定字段进入紧凑解释负载。“紧凑质量”包括状态、警告要求、持续时间、保留量、拒绝段计数、坏通道候选、问题计数、选定空间警告、采集上下文标签和警告文本。原始样本、逐试验信号、完整窗口记录、完整 PSD 向量和本地源路径被排除。标签范围截断为前 20 个紧凑区间。该投影设计围绕解释质量、审查参数、聚合趋势和声明限制所需的字段。它不是最低披露的正式证明。特别地，当前的视觉认知负荷投影包含已总结的嵌套...（内容截断？原文末尾不完整，我们按现有翻译）

(Note: The original text appears to be cut off at the end of the table description. We'll translate what's given and indicate truncation if needed.)

面向低通道EEG智能体的边界感知上下文接地

相似文章

NeuraDock 视觉认知负荷代理教程：一个质量门控的开源EEG工作流，用于Alpha动态和实时应用

Context：通过可组合沙箱程序、声明式布线及结构化交互实现主动目标导向智能

基于身体的人工代理视角形成与意动调适

更少的上下文，更高的准确性：一种用于LLM代理的双时态记忆引擎，其中精简检索的上下文胜过了完整历史

我为代码智能体构建了一个上下文窗口优化框架——开源 + 论文

提交意见反馈