标签
本文评估了‘vibe coding’(即使用自然语言提示通过AI智能体生成代码而无需人工审查)在新建软件工程任务中的可行性,并分析了现有用于衡量LLM编程能力的基准测试。作者开发了一套针对简单Python编程任务的评估套件,以提供有针对性的见解。