关于GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据
摘要
本文分析了35,361条引用AI使用的GitHub代码注释,开发了AI辅助开发活动的分类体系,发现开发者主要使用LLM进行代码实现和增强,随后进行人工重构和错误修复,并且随时间推移,从直接代码生成转向概念支持。
查看缓存全文
缓存时间: 2026/06/08 23:18
论文页面 - GitHub仓库中AI使用特征与演变的实证研究:来自代码注释的证据
来源:https://huggingface.co/papers/2606.06843
摘要
AI工具正越来越多地融入软件开发工作流,开发者主要使用大语言模型(LLM)进行代码实现与增强,同时通过重构和修复漏洞保持持续监督,随着时间的推移,其使用正从直接代码生成转向概念性支持。
开发者日益在日常软件工作流中使用ChatGPT、Copilot、Claude等AI工具,但先前的研究往往孤立评估LLM的输出,而非考察开发者如何在真实项目中适配这些输出。我们分析了35,361条明确提及AI使用的GitHub代码注释及其关联的代码块。首先,我们对500条独特的注释和代码块进行开放式编码,推导出AI辅助开发活动的分类体系;然后使用两个基于LLM的分类器对完整数据集进行标注,并通过Dawid-Skene期望最大化法聚合预测结果。我们还分析了12,996条后续提交信息,以研究AI辅助代码在引入后的演变过程,并考察了2022年12月至2026年3月期间的时间趋势。结果表明,开发者主要使用LLM进行代码实现,其次是代码增强、调试、文档编写和测试。后续提交中频繁涉及重构与清理、功能集成与扩展、以及漏洞修复,表明人类在适配AI辅助代码时持续进行监督。随着时间的推移,引用AI的注释从直接代码生成转向知识与概念支持以及代码增强。这些发现表明,AI工具不仅作为代码生成辅助手段被嵌入工作流,更成为协作支持机制——其输出会由开发者随时间推移进行精炼、扩展和修正。
查看arXiv页面 (https://arxiv.org/abs/2606.06843)查看PDF (https://arxiv.org/pdf/2606.06843)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06843)
在你的代理中获取此论文:
hf papers read 2606.06843
没有安装最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。
引用此论文的Space0
暂无Space关联此论文
请在Space README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。
包含此论文的收藏集0
暂无包含此论文的收藏集
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以从本页建立链接。
相似文章
@charliejhills:大多数人使用AI。最聪明的人向构建它的人学习。这里有11个GitHub仓库,感觉像是在开源互联网的集体智慧……
一条推文线程,精选了11个开源的GitHub仓库,涵盖AI工具、智能体(agents)和学习资源,包括PilotDeck、Karpathy的技能(Karpathy's skills)以及微软的AI智能体课程。
AI生成代码的质量
这篇文章讨论了一个担忧:随着AI工具生成越来越多的代码,未来基于这些合成代码训练的模型可能会质量下降、原创性降低,并询问像OpenAI、Anthropic和GitHub这样的主要AI实验室计划如何应对这个问题。
@robiartec: 本周GitHub上10个爆火AI代码库:1. Understand-Anything 将任意代码库变成交互式知识图谱…
本周GitHub上10个爆火AI代码库的周报,涵盖代码可视化、智能体技能、视频生成等工具。
GitHub 趋势的 AI 仓库中,一半是“skills”包,但其形态差异可达千倍。真正的原语是去做一些真实的事。
GitHub 趋势列表被“skills”包主导,这些包在范围上差异千倍,但都使用 Anthropic 的 SKILL.md 格式,该格式正成为 AI 智能体能力的真实分发原语。文章分析了这对构建者的影响,包括可移植性挑战、工作流强制与能力扩展之间的分裂,以及技能包的低护城河。
@karpathy:对 GitHub Gist 的评论质量之高感到惊讶。更加实用、见解深刻、富有建设性,而且 AI 内容少得多……
Andrej Karpathy 指出,GitHub Gist 的评论质量明显优于其他平台,讨论更具建设性且 AI 生成内容较少,并推测了背后的原因。