关于GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

Hugging Face Daily Papers 2026/06/05 00:00 论文

empirical-study code-comments ai-tools llms software-development human-oversight

摘要

本文分析了35,361条引用AI使用的GitHub代码注释，开发了AI辅助开发活动的分类体系，发现开发者主要使用LLM进行代码实现和增强，随后进行人工重构和错误修复，并且随时间推移，从直接代码生成转向概念支持。

开发者越来越多地使用ChatGPT、Copilot和Claude等AI工具进行日常软件工作，但以往的研究往往孤立地评估LLM的输出，而非考察开发者如何在实际项目中调整它们。我们分析了35,361条明确提及AI使用的GitHub代码注释及其相关的代码块。首先对500条独特的注释和代码块进行开放式编码，以推导出AI辅助开发活动的分类体系，然后使用两个基于LLM的分类器对完整数据集进行标注，并通过Dawid-Skene期望最大化方法聚合预测结果。我们还分析了12,996条后续提交信息，以研究AI辅助代码在引入后的演变情况，并考察了从2022年12月到2026年3月的时间趋势。结果表明，开发者主要将LLM用于代码实现，其次是代码增强、调试、文档编写和测试。后续提交经常涉及重构与清理、功能集成与扩展以及错误修复，表明开发者对AI辅助代码的持续人工监督和调整。随着时间的推移，引用AI的评论从直接代码生成转向知识和概念支持以及代码增强。这些发现表明，AI工具不仅作为代码生成辅助手段，而且作为协作支持机制嵌入开发流程，其输出由开发者不断进行精炼、扩展和修正。

查看原文

查看缓存全文

缓存时间: 2026/06/08 23:18

论文页面 - GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

来源：https://huggingface.co/papers/2606.06843

摘要

AI工具正越来越多地融入软件开发工作流，开发者主要使用大语言模型（LLM）进行代码实现与增强，同时通过重构和修复漏洞保持持续监督，随着时间的推移，其使用正从直接代码生成转向概念性支持。

开发者日益在日常软件工作流中使用ChatGPT、Copilot、Claude等AI工具，但先前的研究往往孤立评估LLM的输出，而非考察开发者如何在真实项目中适配这些输出。我们分析了35,361条明确提及AI使用的GitHub代码注释及其关联的代码块。首先，我们对500条独特的注释和代码块进行开放式编码，推导出AI辅助开发活动的分类体系；然后使用两个基于LLM的分类器对完整数据集进行标注，并通过Dawid-Skene期望最大化法聚合预测结果。我们还分析了12,996条后续提交信息，以研究AI辅助代码在引入后的演变过程，并考察了2022年12月至2026年3月期间的时间趋势。结果表明，开发者主要使用LLM进行代码实现，其次是代码增强、调试、文档编写和测试。后续提交中频繁涉及重构与清理、功能集成与扩展、以及漏洞修复，表明人类在适配AI辅助代码时持续进行监督。随着时间的推移，引用AI的注释从直接代码生成转向知识与概念支持以及代码增强。这些发现表明，AI工具不仅作为代码生成辅助手段被嵌入工作流，更成为协作支持机制——其输出会由开发者随时间推移进行精炼、扩展和修正。

查看arXiv页面 (https://arxiv.org/abs/2606.06843)查看PDF (https://arxiv.org/pdf/2606.06843)加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.06843)

在你的代理中获取此论文：

hf papers read 2606.06843

没有安装最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。

引用此论文的Space0

暂无Space关联此论文

请在Space README.md中引用 arxiv.org/abs/2606.06843 以从本页建立链接。

包含此论文的收藏集0

暂无包含此论文的收藏集

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以从本页建立链接。

关于GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

论文页面 - GitHub仓库中AI使用特征与演变的实证研究：来自代码注释的证据

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

@charliejhills：大多数人使用AI。最聪明的人向构建它的人学习。这里有11个GitHub仓库，感觉像是在开源互联网的集体智慧……

AI生成代码的质量

@robiartec: 本周GitHub上10个爆火AI代码库：1. Understand-Anything 将任意代码库变成交互式知识图谱…

GitHub 趋势的 AI 仓库中，一半是“skills”包，但其形态差异可达千倍。真正的原语是去做一些真实的事。

@karpathy：对 GitHub Gist 的评论质量之高感到惊讶。更加实用、见解深刻、富有建设性，而且 AI 内容少得多……

提交意见反馈