SWE-CI论文炸锅:75% AI写代码会越改越崩,程序员真的不用慌了吗?
2026-03-19 610 0
最近,一篇来自阿里巴巴与中山大学的研究论文《SWE-CI》在技术圈刷屏,直接把AI会取代程序员的焦虑按在地上摩擦。这项研究没有再用传统的刷题式评测,而是把AI扔进真实代码库里,让它像工程师一样长期维护项目——结果,可以说相当真实,甚至有点扎心。

SWE-CI在测什么?不是写代码,而是养代码
过去的大多数评测(比如修bug、写函数),本质上都是一次性任务。但真实的软件开发不是这样,而是一个长期演化的过程。SWE-CI的核心突破在于:它模拟了真实项目的持续集成流程,让AI在平均233天、71次提交的代码演进中不断修改代码。

换句话说,它测试的不是会不会写代码,而是能不能长期维护一个复杂代码库。这也是AI目前最容易翻车的地方。
结果有多惨?一句话:越改越烂
根据测试结果,大多数AI在代码维护任务中的表现可以总结为一句话:写得出来,但守不住。

关键结论包括:
- 大量修改会引入新问题,甚至破坏已有功能
- 多数模型“零回归率”(不搞崩原功能)不足25%
- 长期维护能力整体不稳定,容易“越改越糟”
这也解释了为什么很多开发者的真实体验是:AI写一段代码很香,但一旦改项目,就开始挖坑。你以为它在修bug,其实它在埋雷。
为什么AI写代码强,维护代码却拉胯?
这个现象其实不难理解,本质是两种能力的差异:
1. 局部最优 vs 全局一致性
AI擅长的是局部正确——写一个函数、修一个bug都没问题。但代码库是一个复杂系统,需要全局一致性,而AI很难长期记住所有上下文。
2. 缺乏工程经验
人类程序员会考虑:向后兼容、架构演进、技术债。而AI更多是把当前任务做对,缺乏长期工程思维。
3. 上下文窗口限制
代码库越大,AI理解越不完整,决策自然越容易出错。
为什么Claude表现更好?
论文和社区讨论普遍提到,少数模型(如Claude)在“零回归率”上表现更稳。原因可能包括:
- 更强的长上下文能力
- 更保守的修改策略
- 更好的代码理解能力
但即便如此,也只是相对能用,远远谈不上自动维护整个项目。
这对程序员意味着什么?
这篇论文其实给出了一个非常清晰的结论:AI不会取代程序员,但会改变程序员的工作方式。
更现实的趋势是:
- AI负责写代码(提效工具)
- 人类负责管代码(架构与质量)
换句话说,未来程序员的核心竞争力不再是会不会写代码,而是能不能控制复杂系统。
一个更扎心但更真实的结论:SWE-CI实际上揭示了一件很多人不愿意承认的事,AI已经接近初级程序员,但离高级工程师还很远。它可以写CRUD、写工具函数、快速生成原型。但它做不好系统设计、大规模重构、长期维护。
总结
这波SWE-CI测试,可以说把AI编程的真实水平彻底揭开:
- 写代码:王者
- 改代码:青铜
- 维护代码库:地狱难度
所以,如果你是程序员,现在最不该做的不是焦虑,而是升级能力:从写代码的人进化为掌控系统的人。AI不是来抢饭碗的,它更像是一个写代码很快,但需要你时刻盯着的实习生。