TA-RAG:面向同伴支持健康通信的语调感知检索增强生成

arXiv cs.CL 论文

摘要

本文介绍了TA-RAG,一种基于提示词的框架,为敏感的同伴支持健康通信(如HIV同伴支持)的检索增强生成添加了显式语调控制,无需微调。它评估了去污名化改写、可读性调整、接收者适配和同理心重述等组件。

arXiv:2606.06794v1 公告类型:新 摘要:检索增强生成(RAG)成功地将大语言模型(LLM)的输出锚定在可信文档中,但对于敏感的同伴支持健康通信,仅凭事实锚定是不够的。在HIV同伴支持等领域,回复还必须易于理解、无污名、富有同理心,并针对接收者进行个性化调整。本文提出TA-RAG,一个轻量级、基于提示词的语调感知RAG框架,它将显式语调控制嵌入RAG流水线中,无需模型微调。我们将语调操作化为四个核心组件:去污名化改写、可读性调整、接收者适配和同理心重述。我们利用来自澳大利亚在线学习HIV(HOLA)、联合国艾滋病规划署(UNAIDS)术语指南、可读性指标、澳大利亚艾滋病毒感染者国家协会(NAPWHA)的同伴支持标准以及公开的同理心数据集中的问题,通过组件级测试对TA-RAG进行了评估。结果表明,TA-RAG的各组件提高了目标通信质量,同时保留了关键内容。这些发现强调,基于提示词的语调控制是使RAG输出适用于敏感同伴支持健康通信的一个潜在方向。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:20

# 面向同伴支持健康沟通的语气感知检索增强生成

来源:https://arxiv.org/html/2606.06794
安东尼·麦科斯克 斯威本科技大学 墨尔本 维多利亚州 澳大利亚 amccosker@swin\.edu\.au (https://arxiv.org/html/2606.06794v1/mailto:[email protected])

###### 摘要

检索增强生成(RAG)能够将大语言模型(LLM)的输出可靠地建立在可信文档之上,但对于敏感的同伴支持健康沟通而言,仅靠事实基础是不够的。在 HIV 同伴支持等领域,回应还必须易于理解、无污名化、富有同理心,并针对接收者进行个性化调整。本文提出 TA-RAG,一种轻量级、基于提示的语气感知 RAG 框架,它无需模型微调即可将明确的语气控制嵌入 RAG 流水线中。我们将语气操作化为四个核心组件:无污名重写、可读性调整、接收者适配和同理心改写。我们利用来自澳大利亚 HIV 在线学习(HOLA)、UNAIDS 术语指南、可读性指标、澳大利亚 HIV 感染者协会(NAPWHA)的同伴支持标准以及一个公共同理心数据集的问题,通过组件级测试评估了 TA-RAG。结果表明,TA-RAG 的各个组件在保持关键内容的同时,提高了其目标沟通质量。这些发现强调,基于提示的语气控制是使 RAG 输出适用于敏感同伴支持健康沟通的一个潜在方向。

TA-RAG,语气感知检索增强生成,检索增强生成,RAG,同伴支持健康沟通

††ccs:计算方法 自然语言处理††ccs:应用计算 健康信息学††ccs:信息系统 语言模型

## 1. 引言

同伴支持在社区健康中扮演着重要角色,尤其是在污名化、不确定性和健康素养障碍影响人们寻求和解释信息的背景下(Berg et al., 2021 (https://arxiv.org/html/2606.06794#bib.bib7); Kang et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib14); World Health Organization, 2022 (https://arxiv.org/html/2606.06794#bib.bib16); Young et al., 2024 (https://arxiv.org/html/2606.06794#bib.bib4))。在 HIV、心理健康和慢性病等领域,同伴支持者不仅仅是传递事实——他们还提供 reassurance、实用指导和情感上合适的沟通(Machon et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib6); Berg et al., 2021 (https://arxiv.org/html/2606.06794#bib.bib7); Kang et al., 2022 (https://arxiv.org/html/2606.06794#bib.bib13))。这使得同伴支持沟通成为生成式 AI 系统的一个具有挑战性的场景,因为一个回复可能在事实上正确,但仍可能显得冷漠、难以理解、轻蔑或带有污名化。RAG 为健康信息系统提供了有前景的基础,因为它将生成的答案建立在可信文档之上(Gao et al., 2024 (https://arxiv.org/html/2606.06794#bib.bib19); Amugongo et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib18))。然而,标准的 RAG 流水线主要针对相关性和事实性进行优化。它们并不明确控制生成的回复是否使用以人为本的语言、满足可读性需求、适应该接收者,或注意到用户的情感背景(UNAIDS, 2024 (https://arxiv.org/html/2606.06794#bib.bib8); Health Equity Matters, 2024 (https://arxiv.org/html/2606.06794#bib.bib9); Bol et al., 2020 (https://arxiv.org/html/2606.06794#bib.bib28); Sharma et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib23))。这些限制在同伴支持环境中尤其重要,因为语气会影响信任、理解以及根据信息采取行动的意愿。

本文提出一个问题:*“RAG 如何超越事实基础,以支持语气感知的同伴支持健康沟通?”* 为回答这个问题,我们提出了 TA-RAG,一种将语气视为基本设计要求的语气感知 RAG 框架。TA-RAG 从四个维度定义语气:*无污名术语*、*可读性*、*接收者适配性* 和 *同理心*。该框架在事实草稿生成之后添加了一个语气调整层,并辅以歧义处理。TA-RAG 不需要模型微调或特定领域的模型训练,而是通过基于提示的机制和指南驱动的重写来实现这些控制,使得框架轻量级且易于适应可能技术资源有限的社区组织。

本文做出三项贡献:首先,我们提出了 TA-RAG,一种用于敏感同伴支持健康场景中语气感知 RAG 的轻量级架构。其次,我们通过四个可控组件操作化语气:无污名重写、可读性调整、接收者适配和同理心改写。第三,我们通过组件级测试评估 TA-RAG,以在完整的用户部署研究之前验证每个模块。本文被定位为 TA-RAG 的早期基础框架。目标是在与经过培训的同伴支持者进行更广泛评估之前,确定 TA-RAG 的组件是否能够在提高同伴支持沟通质量方面产生可衡量的性能。

## 2. 动机与语气定义

**用于健康信息获取的 RAG。** RAG 系统将知识源的检索与大语言模型相结合,使得生成的回复比纯生成式聊天机器人更透明、更有依据(Gao et al., 2024 (https://arxiv.org/html/2606.06794#bib.bib19); Amugongo et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib18))。在健康领域,RAG 具有吸引力,因为它可以整合可信指南、组织文档和科学文献,这一能力在医疗和健康信息应用中正被越来越多地探索(Nori et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib21); Thirunavukarasu et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib20); Amugongo et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib18))。然而,仅凭基础并不能保证回应适合非专业用户或敏感社区。健康信息可能仍然过于技术化、情感平淡,或与社区偏好的语言不一致。

**同伴支持沟通中的语气。** 健康沟通研究强调,有效沟通不仅仅取决于正确性(Bol et al., 2020 (https://arxiv.org/html/2606.06794#bib.bib28); Lustria, 2017 (https://arxiv.org/html/2606.06794#bib.bib30); Kang et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib14); Lapinski et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib29))。信息需要可读、尊重、量身定制且情感上合适。例如,在 HIV 相关沟通中,术语可以强化或减少污名化,这促使使用以人为本和社区偏好的语言指南(UNAIDS, 2024 (https://arxiv.org/html/2606.06794#bib.bib8); Health Equity Matters, 2024 (https://arxiv.org/html/2606.06794#bib.bib9))。同样,同样的信息可能需要以不同的方式向同伴、全科医生或政策制定者表达,这反映了关于信息定制和目标健康沟通的已有工作(Bol et al., 2020 (https://arxiv.org/html/2606.06794#bib.bib28); Lustria, 2017 (https://arxiv.org/html/2606.06794#bib.bib30); Lapinski et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib29))。TA-RAG 基于这一见解,将语气视为一组操作约束,嵌入到生成流水线中,而非表面的风格层。

我们将语气定义为四种沟通属性的组合,这些属性在同伴支持健康沟通中尤其关键:

1. (1) **无污名术语**:使用以人为本、包容且符合指南的语言。这一维度至关重要,因为污名化或过时的术语会降低信任、加剧社会伤害,并使健康信息变得不安全(UNAIDS, 2024 (https://arxiv.org/html/2606.06794#bib.bib8); Health Equity Matters, 2024 (https://arxiv.org/html/2606.06794#bib.bib9); World Health Organization, 2022 (https://arxiv.org/html/2606.06794#bib.bib16))。
2. (2) **可读性**:语言对非专业用户友好。可读性很重要,因为同伴支持的回应通常由健康素养水平各异的人使用,而过多的技术语言会限制理解(Tran et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib2); Bol et al., 2020 (https://arxiv.org/html/2606.06794#bib.bib28); Thirunavukarasu et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib20))。
3. (3) **接收者适配性**:根据指定目标接收者的沟通期望进行调整。语气不是通用的——同样的信息可能需要针对同伴进行对话式和安慰式表达,针对全科医生需要临床精确,针对政策制定者则需要简洁且注重影响(Bol et al., 2020 (https://arxiv.org/html/2606.06794#bib.bib28); Lustria, 2017 (https://arxiv.org/html/2606.06794#bib.bib30); Lapinski et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib29))。
4. (4) **同理心**:承认担忧、不确定性和情感背景。同伴支持通常既涉及信息提供,也涉及情感安慰。先前关于 AI 中介同伴支持的研究表明,生成模型可以产生支持性的回应。忽略恐惧、不确定性或痛苦的回应可能看似事实正确,但作为支持性沟通仍然失败(Nembhard et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib25); Sharma et al., 2023 (https://arxiv.org/html/2606.06794#bib.bib23); Young et al., 2024 (https://arxiv.org/html/2606.06794#bib.bib4); Shen et al., 2024 (https://arxiv.org/html/2606.06794#bib.bib17); Liu et al., 2025 (https://arxiv.org/html/2606.06794#bib.bib22))。

这些属性可以反映出当健康信息传达给可能正在应对污名化、不确定性、低健康素养或情感困难决策的人们时所出现的特定风险。在这种情境下,一个回应不仅要有证据基础,还必须安全、易懂、社交上合适且具有支持性。

## 3. TA-RAG 框架

TA-RAG 通过一个基于提示的语气调整层扩展了 RAG,确保回应无污名、可读、富有同理心,并且适合同伴支持。TA-RAG 可分为三个主要步骤(见图 1 (https://arxiv.org/html/2606.06794#S3.F1) 和算法 1 (https://arxiv.org/html/2606.06794#alg1)):

![图 1 说明](https://arxiv.org/html/2606.06794#S3.F1)
图 1. TA-RAG 架构。

**算法 1 TA-RAG 工作流程**
1: 查询 \(q\),语料库 \(\mathcal{C}\),阈值 \(\tau_e\)(同理心),\(\tau_r\)(可读性),污名过滤指南 \(G_s\),接收者指南 \(G_p\)
2: /* 步骤 1: 澄清与检索 */
3: \(q \leftarrow \text{ClarifyQ}(q, \mathcal{C})\)
4: \(R(q) \leftarrow \text{RetrieveChunk}(k, q, \mathcal{C})\)
5: /* 步骤 2: 草稿生成 */
6: \(d \leftarrow M(q, R(q))\) ▷ 基于证据的草稿
7: /* 步骤 3: 语气调整层 */
8: \(d' \leftarrow \text{Replace}(d, G_s)\) ▷ 无污名控制
9: 如果 \(R_{\text{read}}(d') > \tau_r\) 则 ▷ 可读性控制
10:   \(d' \leftarrow \text{SimplifyUntil}(d', \tau_r)\)
11: 结束如果
12: \(d' \leftarrow \text{PeerSupportAdapt}(d', G_p)\) ▷ 同伴支持对齐
13: 如果 \(E(d') < \tau_e\) 则 ▷ 同理心控制
14:   \(d' \leftarrow \text{EmpathyRephrase}(d')\)
15: 结束如果
16: 返回 \(d'\)

**步骤 1: 澄清与检索:** TA-RAG 首先对用户查询 \(q\)(或提示)进行澄清。一个基于提示的歧义检测器检查 \(q\) 是否足够清晰,可以基于语料库 \(\mathcal{C}\) 进行回答(L1)。如果 \(q\) 有歧义,则生成一个更清晰的问题,并呈现给用户确认或精炼。例如,查询“How can I improve my quality of life?”(如何提高我的生活质量?)过于宽泛,因为 HIV 感染者的生活质量可能涉及社交联系、痛苦或日常支持。在 NAPWHA 同伴支持背景下,TA-RAG 可能会生成一个澄清后的查询:“Which part of living well with HIV would you like support with: connection, emotional wellbeing, healthcare, stigma, or distress?”(您希望在 HIV 良好生活的哪个方面获得支持:联系、情感健康、医疗保健、污名化还是痛苦?)一旦用户确认 \(q\) 清晰,TA-RAG 使用 \(\text{RetrieveChunk}(\cdot)\)(L2)从 \(\mathcal{C}\) 中检索前 \(k\)(\(k\):用户指定)个相关片段:\(\text{top-}k_{p \in \mathcal{C}} \cos(\text{em}(q), \text{em}(p))\),其中 \(\text{em}(\cdot)\) 是嵌入函数,\(p\) 是文档片段。检索到的片段为回应提供事实依据。

**步骤 2: 草稿生成:** 大语言模型 \(M\) 根据 \(\mathcal{C}\) 生成基于证据的事实草稿 \(d\),条件为 \(q\) 和检索到的片段 \(R(q)\)(L3)。草稿 \(d\) 旨在通过利用 \(\mathcal{C}\) 最大化事实相关性和覆盖范围。然而,它可能仍然过于复杂、缺乏人性化,或与用户期望的支持性、可及性和沟通规范不一致。

**步骤 3: 语气调整层:** 该层通过四个基于提示的组件(使用大语言模型 \(M\))精炼草稿 \(d\)(L4–11):

- **无污名重写(\(\mathbf{C}_{\mathbf{Stig}}\)):** \(\mathbf{C}_{\mathrm{Stig}}\) 将 \(d\) 作为输入,并根据从污名过滤指南 \(G_s\) 导出的规则(L4),将污名化表达转化为更受欢迎的替代术语。例如,在 HIV 同伴支持背景下,\(G_s\) 可以操作化为一个基于 UNAIDS 术语指南(UNAIDS, 2024 (https://arxiv.org/html/2606.06794#bib.bib8))的领域特定污名过滤规则集(例如,‘HIV patients’ → ‘people living with HIV’)。通过替换标签性语言同时保留语义含义,\(\mathbf{C}_{\mathrm{Stig}}\) 生成精炼后的草稿 \(d'\),该草稿随后作为下游语气控制步骤的输入。

- **可读性控制(\(\mathbf{C}_{\mathbf{Read}}\)):** \(\mathbf{C}_{\mathrm{Read}}\) 使用 \(R_{\text{read}}(\cdot)\) 评估 \(d'\) 的可读性,并与阈值 \(\tau_r\) 进行比较(L5–7)。如果 \(R_{\text{read}}(d') > \tau_r\),意味着回应的复杂程度高于所需可读性水平,\(\mathbf{C}_{\mathbf{Read}}\) 调用 \(\text{SimplifyUntil}(d', \tau_r)\) 迭代精炼和重写回应,直到满足条件,或达到用户指定的最大简化尝试次数。

- **接收者调整(\(\mathbf{C}_{\mathbf{Reci}}\)):** \(\mathbf{C}_{\mathbf{Reci}}\) 使用接收者指南 \(G_p\)(L8)将 \(d'\) 调整为适合预期接收者。用户可以指定接收者类别,例如同伴支持者或政策制定者,其中 \(G_p\) 定义了预期的正式程度和沟通风格。面向政策制定者的回应可能优先考虑政策相关性,而面向同伴支持的回应则可能强调 reassurance、共

相似文章

Disco-RAG: 话语感知检索增强生成

arXiv cs.CL

Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。

HKUDS/RAG-Anything

GitHub Trending (daily)

HKUDS 发布 RAG-Anything:基于 LightRAG 的开源一站式多模态检索增强生成框架。