AI能猜出你知道什么吗?基于通信日志的人类领域知识估算中大语言模型的性能比较

arXiv cs.CL 论文

摘要

本文研究了大语言模型是否能够从长期Slack日志中推断个人领域知识,比较了七种模型,发现Gemini 2.5 Flash误差最低,揭示了自动专家知识映射的可行性与局限性。

arXiv:2605.22971v1 公告类型:新 摘要:员工常常难以识别“谁知道什么”,导致组织生产力损失。我们研究了大语言模型是否能够直接从长期Slack日志中推断个人领域知识。通过分析来自43名用户的27,188条消息,我们评估了七种模型(包括Gemini、Claude和GPT系列),将它们的零样本估算结果与27名参与者的自我报告技能评分进行比较。Gemini 2.5 Flash实现了最低误差(MAE 21.13%),而GPT模型显示出显著更大的差异。值得注意的是,估算准确性仅微弱依赖于消息量,表明仅靠更多文本并不能保证更好的推断。这些发现展示了自动专家知识映射的可行性与当前局限性,强调了需要隐私保护部署以及更丰富、结构感知的人类知识表示。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:56

# AI能猜出你知道什么?从通信日志中评估人类领域知识的大型语言模型性能比较
来源:https://arxiv.org/html/2605.22971 (2018)

###### 摘要。
员工常常难以识别“谁了解什么”,导致组织生产力损失。我们研究大型语言模型(LLMs)是否能够直接从长期的Slack日志中推断个人领域知识。通过分析来自43位用户的27,188条消息,我们评估了七个模型(包括Gemini、Claude和GPT系列),将其零样本估计与27位参与者的自评技能等级进行比较。Gemini 2.5 Flash实现了最低误差(MAE 21.13%),而GPT模型显示出显著更大的差异。值得注意的是,估计精度仅微弱地依赖于消息量,这表明仅凭更多文本并不能保证更好的推断。这些发现证明了自动化专业知识映射的可行性和当前局限性,突显了隐私保护部署以及更丰富、结构感知的人类知识表示的必要性。通信日志、大型语言模型、认知增强、知识引导
††版权:acmlicensed
††期刊年份:2018
††doi:XXXXXXX.XXXXXXX
††会议:请从您的权利确认邮件中填写正确的会议标题;2018年6月03-05日;美国纽约州伍德斯托克
††isbn:978-1-4503-XXXX-X/2018/06
††ccs:请勿使用此代码为您的论文生成正确术语
††ccs:请勿使用此代码为您的论文生成正确术语
††ccs:请勿使用此代码为您的论文生成正确术语
††ccs:请勿使用此代码为您的论文生成正确术语

![图1:本研究的概念图。本研究旨在从通信日志中通过LLMs估计一个人的领域知识。在本研究中,我们使用Slack通信日志作为输入,并通过LLMs估计和可视化人类领域知识。](引用图注)

## 1. 引言

想象你是一名新入职的员工。你加入一个经验丰富的团队。有些人精通特定软件技术,有些人可能对项目所需的资质非常了解。由于你是新人,你不确定最好去问谁。最后,方法可能只能四处询问直到找到最佳解答。这种情况也可能发生在新入学的大学生或实验室新成员身上。这个问题听起来似乎不算大问题,但根据各种社会成本来看,实际上很严重。公司内部知识,即所谓的内网共享,失败率很高,国际数据公司(IDC)在2017年的白皮书中报道:500家公司每年至少损失315亿美元(Zohuri and Mossavar-Rahmani,2019(https://arxiv.org/html/2605.22971#bib.bib1);Trippe,2022(https://arxiv.org/html/2605.22971#bib.bib2);West,2018(https://arxiv.org/html/2605.22971#bib.bib3))。麦肯锡也报告称,1.8小时(总工作时间的19%)用于搜索信息或寻求帮助的人(Bughin等人,2012(https://arxiv.org/html/2605.22971#bib.bib4))。尤其是在入职阶段,Panopto和YouGov(2018(https://arxiv.org/html/2605.22971#bib.bib5))报告称,新员工需要6个月才能完全上手并独立工作,估计成本为25.3万美元。正如这些报告所指出的,隐藏的内网在全世界范围内给各类组织带来了高昂的经济成本。

LLMs利用其在处理和生成复杂语言方面的优势,迅速成为各领域通用的工具(Rekimoto,2025(https://arxiv.org/html/2605.22971#bib.bib27);Zhou等人,2025(https://arxiv.org/html/2605.22971#bib.bib28);Salminen等人,2025(https://arxiv.org/html/2605.22971#bib.bib29);Oomori等人,2024(https://arxiv.org/html/2605.22971#bib.bib30);Suzawa等人,2025(https://arxiv.org/html/2605.22971#bib.bib39))。在医疗(Liu等人,2025(https://arxiv.org/html/2605.22971#bib.bib36);Takita等人,2025(https://arxiv.org/html/2605.22971#bib.bib37))和教育(Morita等人,2025(https://arxiv.org/html/2605.22971#bib.bib26);Chen等人,2024(https://arxiv.org/html/2605.22971#bib.bib34);Yamaoka等人,2025(https://arxiv.org/html/2605.22971#bib.bib38),2023(https://arxiv.org/html/2605.22971#bib.bib44))等领域,它们有助于组织和解释大量信息(Yang等人,2024(https://arxiv.org/html/2605.22971#bib.bib31)),从分析临床记录和海量医学数据,到生成人类可理解的摘要和回应,其性能常接近人类水平(Mumtaz等人,2023(https://arxiv.org/html/2605.22971#bib.bib6);Clusmann等人,2023(https://arxiv.org/html/2605.22971#bib.bib7))。在组织内部,利用LLMs量化和共享个人专业知识越来越受关注(Zhang等人,2024b(https://arxiv.org/html/2605.22971#bib.bib13);Kernan Freire等人,2023(https://arxiv.org/html/2605.22971#bib.bib32);Wu等人,2025(https://arxiv.org/html/2605.22971#bib.bib33))。LLMs也被用来通过替换或优化人类话语来改变通信内容(Gu等人,2021(https://arxiv.org/html/2605.22971#bib.bib41);Galimzhanova等人,2023(https://arxiv.org/html/2605.22971#bib.bib42);Zhang等人,2022(https://arxiv.org/html/2605.22971#bib.bib43)),例如将冗长的多参与者聊天线程总结为简洁的重点(Kosilova和Birzniece,2024(https://arxiv.org/html/2605.22971#bib.bib9)),并实时重新表述用户的陈述以更好地适应听众或上下文(Kumar等人,2025(https://arxiv.org/html/2605.22971#bib.bib10))。这些新兴应用突显了LLMs如何通过提取和重新格式化信息以改善理解来衡量人类知识。

在本研究中,我们探讨能否通过LLMs从聊天日志中估计个体的领域知识。我们的研究使用Slack¹¹¹https://slack.com/ 组织通信日志作为输入,通过LLMs估计和可视化人类领域知识。为了评估性能,我们在LLMs估计后进行了用户自标注任务,要求用户对系统提取出来的领域知识掌握程度进行评分。通过分析各LLMs估计的领域知识与用户自标注的领域知识之间的差距,我们验证人工智能(AI)在使用聊天/通信日志进行领域知识估计方面的表现如何。我们的关键研究问题(RQs)如下:
- RQ1:LLMs能多精确地估计人类领域知识?
- RQ2:哪种LLMs模型提供最准确的知识估计?
- RQ3:通信日志的数量如何影响LLMs领域知识估计的准确性?

本研究将有助于半自动化的人类领域知识估计生态系统。我们设想,组织可以通过日常活动(如聊天通信)来管理知识,从而绘制团队成员的领域知识地图。

表1:相关工作与我们工作的比较。我们的工作与Zhang等人(2024b)最为接近;然而,那是一项综述研究,并未进行任何实际数据分析。因此,我们的研究是第一个通过基于聊天的LLMs来估计领域知识的工作。

## 2. 相关工作

表1(https://arxiv.org/html/2605.22971#S1.T1)展示了相关研究及本研究的定位。本节将解释该领域中存在哪些相关工作以及我们工作的原创性。

### 2.1. 组织聊天对话分析综述

Kosilova和Birzniece(2024(https://arxiv.org/html/2605.22971#bib.bib9))对组织聊天对话分析进行了大规模综述。该研究是一篇综述论文,因此并未使用实际数据集进行实例研究。该综述筛选了16篇论文,结论指出领域对知识引导性能有显著影响,尤其是在医学和软件工程领域,这些领域通常比较困难。Zhang等人(2024b(https://arxiv.org/html/2605.22971#bib.bib13))提出了关于LLMs时代对话分析的全面综述,将其形式化为一个包括场景重建、因果分析、技能提升和对话生成四个阶段的流程。他们的工作突出了该领域的碎片化,指出现有研究主要涉及浅层子任务(如情感或意图分类),缺乏对对话动态的深层推理。他们还进一步指出需要捕捉目标导向、多轮对话行为的基准和方法,强调了当前研究与实际应用之间的巨大差距。关于知识引导的通信日志已在综述论文中讨论过,但目前尚无研究在实际案例中使用它们。

### 2.2. 从通信日志中知识引导的实践案例

Huang等人(2007(https://arxiv.org/html/2605.22971#bib.bib14))提出了一个级联框架,用于从在线讨论论坛中自动提取高质量问答对作为聊天机器人知识。通过将基于SVM的相关回复识别与排序SVM相结合,以选择信息丰富、简洁且可信的回应,该方法有效过滤了论坛中的噪声内容,并提取出可重复使用的会话知识。在一个大型电影论坛上的实验表明,该方法获得了高精度的聊天机器人回应对,显著优于基线方法。Wang和Chen(2024(https://arxiv.org/html/2605.22971#bib.bib11))提到了人机相互学习的概念,即AI和人互相学习。该研究的独特之处在于使用可解释AI来提供AI如何获取新知识的透明度,并将知识引导流程回馈给人类。由于该论文是观点文章,并未使用实际数据集进行实例研究。Zhang等人(2024a(https://arxiv.org/html/2605.22971#bib.bib12))提出了知识引导与检索(KEAR)框架,这是一个基于LLMs的知识引导与检索框架,用于零样本跨语言立场检测,解决了在没有目标语言训练数据的情况下跨语言传递立场相关推理的挑战。该方法从LLMs推理中引导出背景、推理和解释知识,通过多智能体协作进行验证,并通过层次化跨语言检索器检索最相关的知识。在多语言基准上的实验表明,KEAR显著优于有竞争力的零样本乃至有监督的跨语言立场检测(CLSD)方法,证明了LLMs生成的推理知识在弥合语言鸿沟方面的有效性。Arsovski等人(2019(https://arxiv.org/html/2605.22971#bib.bib16))提出了一种方法论,通过大规模输入问题并识别其中包含的稳定唯一回应规则集,从已有的基于规则的聊天机器人中自动提取会话知识。作者证明聊天机器人知识在足够多的探测后收敛,并进一步通过K均值聚类提取的回应来验证这一饱和点。利用获得的知识,他们训练了一个seq2seq神经对话代理,该代理复现了原始聊天机器人的行为,取得了高BLEU相似度,展示了有效的机器间知识迁移。

我们发现,目前尚不存在将LLMs与聊天(Slack)日志结合进行知识提取的研究,这正是我们研究的主要关注点。

![图2:提出工作流程概述。第一步是将Slack通信日志导出为JSON文件。然后,后端服务器读取JSON文件,并在向LLMs发送提示时使用它们生成提示。LLMs将根据系统提示和用户消息生成领域知识估计。估计出来的领域知识随后存储在Firebase云数据库(Google,2025c)中。在前端Web应用中,查看云数据库并显示每个用户的领域知识。当用户登录Web应用时,他们可以看到自己的领域知识。最后,用户还可以对自己估计出来的每个知识领域做出自己的标注。](图注)

## 3. 方法论

图2(https://arxiv.org/html/2605.22971#S2.F2)显示了提出工作流程的概述。在本节中,我们将详细解释系统架构的每个组成部分。

### 3.1. 通信日志数据集统计

在本研究中,我们使用Slack通信日志。数据收集自2017年4月30日至2024年11月4日(共2744天)。数据集包含来自一家公司的通信日志,总计27,188条消息。聊天中共有43名用户和94个频道。我们将解释从原始数据中选择特定数据的过程,并详细介绍数据格式。

![图3:每位用户(UID)的消息数量。数量在不同用户之间有所不同,因此我们检查这种差异对估计性能的影响。消息最多的是UID 0,最少的是UID 26。](图注)

#### 3.1.1. 选定的数据量与统计

在43名用户中,我们选择了27名作为研究的实际目标参与者。这主要是由于联系人的可用性,即一些候选人无法联系到。图3(https://arxiv.org/html/2605.22971#S3.F3)显示了每位用户(UID)的消息数量。消息最多的是10,819条,来自UID 0;最少的是3条,来自UID 26。平均消息数为792,中位数为208。虽然用户消息量差异很大,但日志捕捉到了广泛的用户信息,以便比较消息量和推理精度,这也是本研究的重点。

#### 3.1.2. 数据结构

1(https://arxiv.org/html/2605.22971#LST1)显示了Slack消息条目的结构。数据以JSON格式存储。关键消息存储在"text"字段中,对消息做出回应的用户也可见。2(https://arxiv.org/html/2605.22971#LST2)显示了Slack频道加入事件消息的结构。该消息不是用户消息,而是系统消息。加入频道的用户出现在"user"字段中。我们使用这条消息来确定用户是否在频道中。这一点很重要,因为我们希望推断领域知识不仅……(原文截断,此处按原文翻译)

相似文章

大型语言模型用于安全数据提取的基准测试

arXiv cs.CL

本文对四种大型语言模型(Gemini 1.5 Pro、GPT-4o、Claude 3.7 Sonnet、Llama 3.1-70B)从安全数据表中提取结构化信息的能力进行了基准测试,发现基于文本的提取结合思维链提示可获得最高准确率(Gemini 1.5 Pro 为84%),但没有任何模型超过工业可靠部署所需的90%阈值。

大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。

评估大语言模型在社交媒体分析中的能力:多任务探索

arXiv cs.CL

犹他州立大学和范德堡大学的研究人员对GPT-4、Gemini 1.5 Pro、DeepSeek-V3、Llama 3.2与BERT在三大社交媒体任务——作者身份验证、帖子生成与用户属性推断——进行了基准测试,引入新的采样方案与分类体系以减少偏差,打造可复现的评测基准。

自回归大语言模型正式与鱼共眠(Yann LeCun是对的)

Reddit r/AI_Agents

CETI项目使用大语言模型的架构解码抹香鲸的咔嗒声,揭示了其语音字母表,但也凸显出AI的统计模式匹配缺乏真正的理解。文章认为,AGI需要具身化、多模态的根基,而不仅仅是基于文本的模型扩展。