AIED中LLMs的环境成本:报告与实践
摘要
本文探讨了AIED研究中缺乏对LLMs计算和环境成本标准化报告的问题,回顾了396篇AIED 2025会议论文,并提出了一种开源方法来测量和报告这些影响。
arXiv:2606.11215v1 Announce Type: cross
摘要:近年来,大型语言模型(LLM)在人工智能教育(AIED)领域的使用日益广泛。虽然LLM为学习者和教育者提供了独特的途径,但使用LLM也带来了计算和环境成本。由于缺乏标准化的测量和报告流程,这些成本大多被隐藏。为弥补这一不足,我们首先对AIED 2025会议论文集的所有论文进行了文献综述,确定是否以及如何报告LLM的计算或环境成本。大多数项目使用LLM,但很少报告使用的计算资源,几乎没有将LLM的环境影响作为伦理问题讨论。
为解决缺乏标准化报告实践的问题,我们提出了一种开源方法,用于系统测量和报告LLM的计算开销以及运行机器学习(ML)AIED系统的环境影响。我们提供了测量本地和云端硬件碳足迹的软件解决方案。我们还提供了一个易于使用的公式,即使不知道确切的参数数量,也能计算前沿LLM的计算开销。总体而言,我们希望激励同事们使用我们的方法,在AIED社区中争取更透明地报告使用LLM的隐藏成本。
查看缓存全文
缓存时间: 2026/06/11 13:54
# AIED 中大语言模型的环境成本:报告与实践 论文被第27届人工智能教育国际会议(2026)蓝轨赛道接收
原文链接:https://arxiv.org/html/2606.11215
11机构:鲁尔西应用科学大学计算机科学研究所与积极计算研究所,LützowstraSSe 5, 46236 博特罗普,德国
22机构:考文垂大学计算科学与数学建模中心,英国考文垂,CV1 5FB
33机构:卡内基梅隆大学
44机构:澳大利亚国立大学与CSIRO
Lukas Erle · Daniel Flood · Aditi Haiman · Luca Häckert · André Helgert · Lachlan McGinness · Büsra Yapici
###### 摘要
近年来,大型语言模型(LLM)在人工智能教育(AIED)社区中的应用日益广泛。虽然LLM为学习者和教育者提供了独特的途径,但其使用也伴随着计算和环境成本。由于缺乏标准化的测量和报告流程,这些成本大多被隐藏。为填补这一空白,我们首先对AIED 2025会议论文集的所有N=396篇论文进行了文献综述,以确定是否以及如何报告LLM的计算或环境成本。大多数项目使用了LLM,但很少有论文报告所使用的计算资源,几乎没有任何论文将LLM的环境影响视为伦理问题加以讨论。
为解决这种缺乏标准化报告实践的问题,我们提出了一种开源方法,用于系统测量和报告LLM的计算开销以及运行机器学习(ML)AIED系统对环境的影响。我们提供了软件解决方案,用于测量本地和基于云的硬件的碳足迹。我们还提供了一个易于使用的公式,用于计算前沿LLM的计算开销,即使确切的参数数量未知。总体而言,我们希望激励同行们使用我们的方法,在AIED社区中争取更透明地报告使用LLM的隐藏成本。
### 本文的可持续性指标
总修正碳强度:1.55×10^{-3} kg
总计算成本:2.60×10^{10} FLOPs
达到100%准确率所需的最小训练碳量(IRIS UCI数据集):1.823×10^{-6} kg
乳腺癌UCI数据集的训练效率(k):2.04×10^{6} kg^{-1} CO2
## 1 引言
近年来,大型语言模型(LLM)已广泛用于学术研究的许多方面。在教育领域,我们看到生成式AI已嵌入到辅导代理、写作助手、评估工具、自动评分与反馈系统以及教师支持等众多应用中[20](https://arxiv.org/html/2606.11215#bib.bib20)。在人工智能教育(AIED)社区中,基于LLM的系统正越来越多地被用作学习和研究工具。这种生成式AI工具的快速整合代表了AIED社区的一个重要转变,因为教育人工智能(AI)越来越多地涉及计算成本高昂的LLM。随着LLM在AIED研究中变得常态化,考虑方法论和伦理问题变得至关重要。
关于AIED中LLM的讨论大多集中在其作为学习工具的有效性、偏见与准确性的影响、学生的学习成果、数据隐私以及负责任的使用上[10](https://arxiv.org/html/2606.11215#bib.bib10)。一些主要的伦理问题包括公平性和透明度(与训练数据和抄袭相关的问题)以及学生对LLM的过度依赖。尽管这些问题极其重要,但在AIED社区中,使用LLM的计算和环境成本在很大程度上被忽视了。
训练和部署LLM需要大量的计算资源,这些资源对环境有影响[9](https://arxiv.org/html/2606.11215#bib.bib9), [16](https://arxiv.org/html/2606.11215#bib.bib16), [18](https://arxiv.org/html/2606.11215#bib.bib18),而这些影响仍被低估。即使研究人员通过API或网络访问模型而不是直接训练它们,推理所需的基础设施仍然需要大量能源。由于教育工具的目标是惠及广大学生,LLM在教育中的使用规模意味着越来越大的计算需求。然而,或许是因为LLM仍然相对较新,目前没有标准化的实践来报告计算使用情况。在AIED社区中,环境因素很少被作为重要的伦理考虑因素加以讨论。
我们的工作聚焦于两个问题:
1. 目前AIED社区如何在他们的研究中报告LLM使用的计算和环境成本?
2. 我们如何在AIED社区的研究中鼓励评估环境成本的透明度和准确性?
为回答这些问题,我们首先回顾了AIED 2025会议的所有论文。我们查看了LLM的使用情况(如果使用的话),是否报告了计算细节,以及是否将环境可持续性作为伦理问题加以讨论。我们利用这次回顾的结果,提供了AIED社区中LLM使用情况的当前图景,并强调了在教育AI研究中缺乏对计算基础设施的关注。接下来,我们提出了几种方法,研究人员可以用这些方法来计算研究项目中LLM和机器学习(ML)方法产生的碳排放。我们描述了一个现有的开源工具(CodeCarbon)用于估算碳排放,创建了一个开源封装器以将其推广到各种可持续性指标,并提出了一种理论上估算LLM所用计算资源的方法。我们认为,通过建立论文中报告LLM使用细节的规范,环境问题的意识以及LLM如何贡献的问题应在AIED社区中成为标准化。通过使LLM的环境足迹更加可见,社区可以为可持续的教育AI研究设定标准。
## 2 AIED社区中的LLM
为了解AIED社区中使用LLM的频率和类型,我们仔细回顾了AIED 2025会议论文集的所有396篇论文。这包括所有类型的投稿,如完整论文和简短论文、研讨会和教程、博士联盟、蓝轨赛道、实践者、行业与政策(PIP)以及最新成果。我们明确将自己限制在最近一次会议的文件中,因为这为我们提供了AIED社区内工作进行的一个清晰定义且最新的快照,反映了当前对LLM及其(通常是隐含的)计算和环境成本的处理方式。此外,由于基于LLM的系统最近才广泛整合到AIED研究中,因此透明度和报告计算与环境成本的工具和实践可能才刚刚出现。
为了系统记录LLM在AIED研究中是如何被处理的,我们搜索了每篇论文的全文,查找有关LLM使用的具体信息。对于每篇论文,我们记录了以下内容:
1. **LLM使用情况(是/否)**:一个二元指标,表明是否在系统、方法或评估中使用或讨论了LLM(超出概念性提及)。
2. **LLM使用类型(分类)**:我们将LLM的使用分为四类。这些类别是通过演绎和归纳相结合的方式确定的:
(a) 实验对象 – 评估LLM的能力。
(b) 数据分析 – LLM用于分析定量或定性数据(例如,标记图像或编码定性数据)。
(c) 产品设计 – LLM用于生成内容或设计将呈现给用户的产品的一部分(例如,为教师生成测试问题)。
(d) 用户交互 – LLM用于直接与研究参与者交互,使LLM成为项目的主要产品(例如,对话式辅导或AI助手)。
3. **LLM使用描述(描述)**:对LLM用途的简短描述。
4. **计算成本报告(是/否)**:论文是否提供了计算成本的任何细节(例如,运行时间、推理成本、能耗、硬件类型或类似信息)。
5. **LLM使用细节(模型/版本)**:论文是否指定了使用的模型,包括任何进一步的细节(例如,GPT-4o、Claude、Llama)。
6. **提及可持续性或环境问题(是/否)**:论文是否提及环境影响、可持续性、能源使用或类似主题。
如果一篇论文使用了多个LLM,或者一个模型适用于多个角色,我们分别编码了所有适用的角色。这个编码框架使我们能够量化LLM在AIED 2025中出现的频率以及它们是如何使用的。为提高方法论严谨性,编码方案由两位编码员迭代开发并应用,通过讨论并达成共识解决分歧。在编码过程中记录了模糊和边界案例,并用它们来完善类别定义,以提高论文间的一致性。
### 2.1 文献回顾结果
在确定的396篇AIED 2025论文中,有257篇使用了LLM,139篇没有。论文中LLM的使用多种多样。100篇论文将LLM作为实验对象,主要用于系统和模型比较、提示策略评估,以及评估偏见、鲁棒性和辅导性能。79篇论文将LLM用于数据分析和自动化。任务包括对话、论文和代码日志的编码、注释和评估。一些研究还使用LLM进行视频/音频转录、结构化特征提取和摘要。108篇论文将LLM用于内容设计,主要是创建任务、提示、干扰项、课程计划和学习材料。LLM最常见的用途是作为交互式学习系统的一个组件。176篇论文报告使用LLM作为辅导老师,向学生提供提示和反馈,模拟训练系统,或作为编码和写作助手。这四种角色常常组合出现,有时也没有明确区分。
只有85篇论文提供了计算成本的信息,而可持续性问题仅出现在57篇论文中。相反,LLM使用规格通常被明确命名。在使用的模型中,OpenAI模型(尤其是GPT-4/4o)出现频率最高,其次是Anthropic Claude和Google Gemini。此外,开源LLM如LLaMA、Mistral、Gemma、Qwen和DeepSeek也被使用,有些还提供了参数大小和微调信息。此外,还提到了相关的NLP/语音/多模态组件(Whisper、BERT)。
这项回顾表明,虽然一些工作至少提到了环境影响,但该话题尚未成为主流。几乎所有提到LLM使用的计算成本或环境影响的论文,都以不同的方式报告这些考虑。有些论文在报告的指标上有所不同,有些提供了减少影响的策略,还有一些只是边缘性地将可持续性作为广泛采用系统的一个可能缺点提及。这描绘了一个社区缺乏标准化工具和程序来报告和评估LLM使用环境影响的图景。在以下章节中,我们概述了测量和系统报告不同形式AI工具可持续性的具体程序。
## 3 测量本地硬件的计算成本
正如文献回顾所示,AIED社区缺乏对AI系统环境成本的标准化报告。在本节中,我们重点介绍CodeCarbon,这是一个开源工具,可用于估算运行AI工具的碳排放量。
算法的环境影响可以通过测量硬件直接能耗,并根据当地电网的能源组合将其转换为CO2排放量来计算[15](https://arxiv.org/html/2606.11215#bib.bib15)。像CodeCarbon这样的工具通过查询硬件接口来测量计算过程持续时间的瞬时功耗[15](https://arxiv.org/html/2606.11215#bib.bib15), [4](https://arxiv.org/html/2606.11215#bib.bib4)。CodeCarbon是一个开源的轻量级Python包,它测量本地硬件的功耗,并利用有关当地电网的假设来估算指定时间内的碳强度(排放的CO2量)。
当无法进行低级硬件测量时,CodeCarbon假定硬件使用其热设计功率(TDP)的50%,TDP是冷却系统CPU或GPU设计耗散的最大热量[4](https://arxiv.org/html/2606.11215#bib.bib4)。CodeCarbon通过检测本地机器使用的硬件并在内部存储的表中查找TDP来实现这一点。如果本地硬件未列出,则应用全局常数(例如,CPU为85W)[4](https://arxiv.org/html/2606.11215#bib.bib4)。
我们建议,在AIED会议或期刊发表研究时,可以使用CodeCarbon或等效系统来计算研究消耗的总功率和释放的CO2。这可以很简单地在摘要之后、引言之前声明“总CO2估算:1.2×10^{-3} kg”,以使读者了解研究的碳强度。
Kocher等人证明,CodeCarbon对硬件的动态跟踪通常低估总能耗约20%[13](https://arxiv.org/html/2606.11215#bib.bib13)。这种不足是因为软件跟踪无法分析电源单元效率低下、硬件冷却系统和外围设备[15](https://arxiv.org/html/2606.11215#bib.bib15)。
尽管CodeCarbon和等效工具并非完全准确,但它们可用于提供任何本地AIED系统碳强度的粗略估算。我们鼓励AIED社区的成员报告其研究的碳强度值,不仅是为了提高意识,也是为了使这成为一个可量化的指标,社区积极努力改进。具体应报告的确切指标强烈取决于所使用的AI技术。例如,对于AI辅导系统,最合适的做法是报告每位学生每分钟辅导的碳强度。对于自动评分系统,则更合适的做法是报告每道题(或每页)评分的碳强度。
在下一节中,我们将介绍一些方法,通过引入本地机器的PUE等效概念来提高报告值的准确性。我们还介绍了其他更细致的指标,可用于衡量ML技术的可持续性。此外,我们引入了一个概念验证工具,该工具根据训练标准ML模型的计算和环境成本评估其性能。
## 4 评估机器学习可持续性的建议框架
在上一节中,我们展示了如何使用开源工具CodeCarbon确定运行本地AI系统产生的CO2排放量。这种默认的碳强度指标并未考虑硬件利用率差异¹¹¹硬件利用率是系统总处理能力(如CPU周期、GPU核心)的一部分。对于AI系统,不同的利用率会导致不同的能效。我们建议报告时考虑PUE(电力使用效率)因子,以更准确地反映实际能耗。相似文章
LLMs 正在如何影响科学交流?衡量写作实践与阅读体验的变化
本文研究写作中大型语言模型日益增长的使用如何改变科学交流,利用 ACL 论文语料库和合成数据展示词汇和风格变化,并通过专家标注将这些变化与主观阅读体验联系起来。
观点:LLM推理应当以能量到令牌的生产来评估
本文主张,在计算、功耗、冷却和运营效率的约束下,LLM推理应当作为能量到令牌的生产来评估,并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。
迈向资源高效的大语言模型:蒸馏管道的端到端能耗核算
本文提出了一种针对大语言模型蒸馏管道的端到端能耗核算框架,通过分阶段测量能耗并构建能耗-质量帕累托前沿,揭示了此前被忽视的教师模型侧成本。
评估机器学习资源利用需要模型生命周期评估
这篇立场论文认为,当前评估人工智能资源使用的方法不足,并倡导采用生命周期评估(LCA)来正确核算整个机器学习流程(从硬件制造到训练和推理)中的能源和环境成本。
大语言模型能否理解创伤影响?大语言模型编码枪支暴力幸存者访谈的成本与收益
本研究评估了开源大语言模型在对黑人枪支暴力幸存者访谈进行归纳编码中的应用,发现虽然大语言模型能够识别某些编码,但总体关联性仍然较低,且安全防护机制导致了叙事内容的严重缺失。该研究突显了在涉及脆弱群体的定性研究中应用人工智能的潜力和伦理限制。