返回

SWE-CI论文炸锅:75% AI写代码会越改越崩,程序员真的不用慌了吗?

2026-03-19 AI 程序员 610 0

最近,一篇来自阿里巴巴与中山大学的研究论文《SWE-CI》在技术圈刷屏,直接把AI会取代程序员的焦虑按在地上摩擦。这项研究没有再用传统的刷题式评测,而是把AI扔进真实代码库里,让它像工程师一样长期维护项目——结果,可以说相当真实,甚至有点扎心。

SWE-CI论文炸锅:75% AI写代码会越改越崩,程序员真的不用慌了吗?

SWE-CI在测什么?不是写代码,而是养代码

过去的大多数评测(比如修bug、写函数),本质上都是一次性任务。但真实的软件开发不是这样,而是一个长期演化的过程。SWE-CI的核心突破在于:它模拟了真实项目的持续集成流程,让AI在平均233天、71次提交的代码演进中不断修改代码。

SWE-CI论文炸锅:75% AI写代码会越改越崩,程序员真的不用慌了吗?

换句话说,它测试的不是会不会写代码,而是能不能长期维护一个复杂代码库。这也是AI目前最容易翻车的地方。

结果有多惨?一句话:越改越烂

根据测试结果,大多数AI在代码维护任务中的表现可以总结为一句话:写得出来,但守不住。

SWE-CI论文炸锅:75% AI写代码会越改越崩,程序员真的不用慌了吗?

关键结论包括:

  • 大量修改会引入新问题,甚至破坏已有功能
  • 多数模型“零回归率”(不搞崩原功能)不足25%
  • 长期维护能力整体不稳定,容易“越改越糟”

这也解释了为什么很多开发者的真实体验是:AI写一段代码很香,但一旦改项目,就开始挖坑。你以为它在修bug,其实它在埋雷。

为什么AI写代码强,维护代码却拉胯?

这个现象其实不难理解,本质是两种能力的差异:

1. 局部最优 vs 全局一致性

AI擅长的是局部正确——写一个函数、修一个bug都没问题。但代码库是一个复杂系统,需要全局一致性,而AI很难长期记住所有上下文。

2. 缺乏工程经验

人类程序员会考虑:向后兼容、架构演进、技术债。而AI更多是把当前任务做对,缺乏长期工程思维。

3. 上下文窗口限制

代码库越大,AI理解越不完整,决策自然越容易出错。

为什么Claude表现更好?

论文和社区讨论普遍提到,少数模型(如Claude)在“零回归率”上表现更稳。原因可能包括:

  • 更强的长上下文能力
  • 更保守的修改策略
  • 更好的代码理解能力

但即便如此,也只是相对能用,远远谈不上自动维护整个项目。

这对程序员意味着什么?

这篇论文其实给出了一个非常清晰的结论:AI不会取代程序员,但会改变程序员的工作方式。

更现实的趋势是:

  • AI负责写代码(提效工具)
  • 人类负责管代码(架构与质量)

换句话说,未来程序员的核心竞争力不再是会不会写代码,而是能不能控制复杂系统。

一个更扎心但更真实的结论:SWE-CI实际上揭示了一件很多人不愿意承认的事,AI已经接近初级程序员,但离高级工程师还很远。它可以写CRUD、写工具函数、快速生成原型。但它做不好系统设计、大规模重构、长期维护。

总结

这波SWE-CI测试,可以说把AI编程的真实水平彻底揭开:

  • 写代码:王者
  • 改代码:青铜
  • 维护代码库:地狱难度

所以,如果你是程序员,现在最不该做的不是焦虑,而是升级能力:从写代码的人进化为掌控系统的人。AI不是来抢饭碗的,它更像是一个写代码很快,但需要你时刻盯着的实习生。

顶部