关于GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据

Hugging Face Daily Papers 论文

摘要

本文分析了35,361条引用AI使用的GitHub代码注释,开发了AI辅助开发活动的分类体系,发现开发者主要使用LLM进行代码实现和增强,随后进行人工重构和错误修复,并且随时间推移,从直接代码生成转向概念支持。

开发者越来越多地使用ChatGPT、Copilot和Claude等AI工具进行日常软件工作,但以往的研究往往孤立地评估LLM的输出,而非考察开发者如何在实际项目中调整它们。我们分析了35,361条明确提及AI使用的GitHub代码注释及其相关的代码块。首先对500条独特的注释和代码块进行开放式编码,以推导出AI辅助开发活动的分类体系,然后使用两个基于LLM的分类器对完整数据集进行标注,并通过Dawid-Skene期望最大化方法聚合预测结果。我们还分析了12,996条后续提交信息,以研究AI辅助代码在引入后的演变情况,并考察了从2022年12月到2026年3月的时间趋势。结果表明,开发者主要将LLM用于代码实现,其次是代码增强、调试、文档编写和测试。后续提交经常涉及重构与清理、功能集成与扩展以及错误修复,表明开发者对AI辅助代码的持续人工监督和调整。随着时间的推移,引用AI的评论从直接代码生成转向知识和概念支持以及代码增强。这些发现表明,AI工具不仅作为代码生成辅助手段,而且作为协作支持机制嵌入开发流程,其输出由开发者不断进行精炼、扩展和修正。
查看原文
查看缓存全文

缓存时间: 2026/06/08 23:18

论文页面 - GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据

来源:https://huggingface.co/papers/2606.06843

摘要

AI工具正越来越多地融入软件开发工作流,开发者主要使用大语言模型(LLM)进行代码实现与增强,同时通过重构和修复漏洞保持持续监督,随着时间的推移,其使用正从直接代码生成转向概念性支持。

开发者日益在日常软件工作流中使用ChatGPT、Copilot、Claude等AI工具,但先前的研究往往孤立评估LLM的输出,而非考察开发者如何在真实项目中适配这些输出。我们分析了35,361条明确提及AI使用的GitHub代码注释及其关联的代码块。首先,我们对500条独特的注释和代码块进行开放式编码,推导出AI辅助开发活动的分类体系;然后使用两个基于LLM的分类器对完整数据集进行标注,并通过Dawid-Skene期望最大化法聚合预测结果。我们还分析了12,996条后续提交信息,以研究AI辅助代码在引入后的演变过程,并考察了2022年12月至2026年3月期间的时间趋势。结果表明,开发者主要使用LLM进行代码实现,其次是代码增强、调试、文档编写和测试。后续提交中频繁涉及重构与清理、功能集成与扩展、以及漏洞修复,表明人类在适配AI辅助代码时持续进行监督。随着时间的推移,引用AI的注释从直接代码生成转向知识与概念支持以及代码增强。这些发现表明,AI工具不仅作为代码生成辅助手段被嵌入工作流,更成为协作支持机制——其输出会由开发者随时间推移进行精炼、扩展和修正。

查看arXiv页面 (https://arxiv.org/abs/2606.06843)查看PDF (https://arxiv.org/pdf/2606.06843)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06843)

在你的代理中获取此论文:

hf papers read 2606.06843

没有安装最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。

引用此论文的Space0

暂无Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。

包含此论文的收藏集0

暂无包含此论文的收藏集

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以从本页建立链接。

相似文章

AI生成代码的质量

Reddit r/AI_Agents

这篇文章讨论了一个担忧:随着AI工具生成越来越多的代码,未来基于这些合成代码训练的模型可能会质量下降、原创性降低,并询问像OpenAI、Anthropic和GitHub这样的主要AI实验室计划如何应对这个问题。