SWE-CI论文炸锅：75% AI写代码会越改越崩，程序员真的不用慌了吗？

2026-03-19 AI 程序员 610 0

最近，一篇来自阿里巴巴与中山大学的研究论文《SWE-CI》在技术圈刷屏，直接把AI会取代程序员的焦虑按在地上摩擦。这项研究没有再用传统的刷题式评测，而是把AI扔进真实代码库里，让它像工程师一样长期维护项目——结果，可以说相当真实，甚至有点扎心。

SWE-CI在测什么？不是写代码，而是养代码

过去的大多数评测（比如修bug、写函数），本质上都是一次性任务。但真实的软件开发不是这样，而是一个长期演化的过程。SWE-CI的核心突破在于：它模拟了真实项目的持续集成流程，让AI在平均233天、71次提交的代码演进中不断修改代码。

SWE-CI论文炸锅：75% AI写代码会越改越崩，程序员真的不用慌了吗？

换句话说，它测试的不是会不会写代码，而是能不能长期维护一个复杂代码库。这也是AI目前最容易翻车的地方。

根据测试结果，大多数AI在代码维护任务中的表现可以总结为一句话：写得出来，但守不住。

SWE-CI论文炸锅：75% AI写代码会越改越崩，程序员真的不用慌了吗？

关键结论包括：

这也解释了为什么很多开发者的真实体验是：AI写一段代码很香，但一旦改项目，就开始挖坑。你以为它在修bug，其实它在埋雷。

这个现象其实不难理解，本质是两种能力的差异：

1. 局部最优 vs 全局一致性

AI擅长的是局部正确——写一个函数、修一个bug都没问题。但代码库是一个复杂系统，需要全局一致性，而AI很难长期记住所有上下文。

2. 缺乏工程经验

人类程序员会考虑：向后兼容、架构演进、技术债。而AI更多是把当前任务做对，缺乏长期工程思维。

3. 上下文窗口限制

代码库越大，AI理解越不完整，决策自然越容易出错。

论文和社区讨论普遍提到，少数模型（如Claude）在“零回归率”上表现更稳。原因可能包括：

但即便如此，也只是相对能用，远远谈不上自动维护整个项目。

这篇论文其实给出了一个非常清晰的结论：AI不会取代程序员，但会改变程序员的工作方式。

更现实的趋势是：

换句话说，未来程序员的核心竞争力不再是会不会写代码，而是能不能控制复杂系统。

一个更扎心但更真实的结论：SWE-CI实际上揭示了一件很多人不愿意承认的事，AI已经接近初级程序员，但离高级工程师还很远。它可以写CRUD、写工具函数、快速生成原型。但它做不好系统设计、大规模重构、长期维护。

这波SWE-CI测试，可以说把AI编程的真实水平彻底揭开：

所以，如果你是程序员，现在最不该做的不是焦虑，而是升级能力：从写代码的人进化为掌控系统的人。AI不是来抢饭碗的，它更像是一个写代码很快，但需要你时刻盯着的实习生。

网友点评

提交

概要