AI 写代码时代测试为何更重要,2026 自动化测试 6 大新工具

Q: 我的项目几乎没测试,现在再加测试还来得及吗

来得及,但要分阶段。先给最关键的业务核心模块加单元测试,例如付款、登录、订单流程,这一阶段就能挡掉大多数严重事故。然后补 e2e 测试覆盖关键用户旅程,最后才轮到 utility 类辅助函数。不要追求一次性把覆盖率拉到很高的数字,先用 20% 的测试覆盖 80% 关键路径,多数项目几个月内就能建起 sustainable 的测试体系。

Q: Playwright 和 Cypress 选哪个

新项目通常选 Playwright,跨浏览器、跨标签、跨域支持都比 Cypress 强,SDK 多语言可选。已有 Cypress 投资且团队很熟悉的项目继续用 Cypress 也没问题,Cypress 仍在持续更新,迁移成本不一定划算。

Q: testRigor 这种 SaaS 工具值得每月几百美元吗

要看团队结构。如果 QA 团队规模较大、产品经理愿意写测试、整个组织希望减少 QA 的纯编码依赖,那花费可以摊得开。小团队或单 dev 项目通常不值,开源工具就足够覆盖。

Q: 变异测试 Stryker 这么慢,值得跑吗

值得,但不需要天天跑。建议每周一次跑全量,每次 release 前再跑一次,结果 review 后挑关键路径上的存活变异补测试。不要追求消灭所有变异,达到比较高的 kill rate 已经是优秀水平,继续打磨边际效用会下降。

Q: AI 生成的测试可以直接 merge 吗

不可以。AI 生成测试常见三类问题。第一是断言过松,只检查 not null 而不检查具体值。第二是 mock 的数据和真实生产环境差距大。第三是只覆盖 happy path,缺少 edge case。所有 AI 生成测试必须有 human review,并且最好真的跑一次反向案例,看它能不能捕捉到典型 bug。

🌐 Read in English

📅 2026-05-18 11:31:50 👤 抖文编辑部 💬 10 条评论 👁 16

AI 写代码效率上来之后,测试反而成了团队里的新瓶颈。代码产出明显加速,但 bug 没有同步减少,手工测试越来越跟不上节奏,把测试做扎实变成 2026 年很多团队真正头疼的事。本文不去引各家报告的精确数字,只把 AI 时代为什么测试更关键讲清楚,再介绍几款目前在工程团队里被普遍采用的自动化测试工具,以及怎么组合使用。

AI 写代码时代测试为何更关键

有几个原因合力把测试推到了更重要的位置。

第一是 AI 生成代码的质量分布更宽。生成出来的代码语法漂亮,但逻辑陷阱比人写的多,合并到主干之后产生回归 bug 的概率不可忽视。这意味着团队不能再依赖"开发者本人很谨慎"这一假设,必须有自动化的护栏在 CI 上把关。

第二是代码产出速度上去了。同样规模的团队每天合并的 PR 数比几年前明显增加,人工 review 越来越接近天花板,自动化测试是为数不多还能跟上节奏的环节。

第三是技术栈本身在变复杂。微服务、Serverless、边缘计算、AI 组件混合在一起,集成测试的层级数和组合数明显上升,凭手工根本测不完。

更深层的变化是测试范式从"找 bug"逐步变成"防 bug"。每个新功能默认要伴生测试,没有测试的 feature 在很多团队已经过不了 review,这是过去几年里最重要的工程文化转变之一。

测试不再是 QA 一个人的事

2026 年的大厂工程师 job description 几乎都明确写着会写测试是基本要求。

变化一,开发者负责单元测试。AI 可以帮写,但工程师对正确性负责,一个 PR 没单元测试过不了 review。

变化二,QA 的角色在升级。传统按脚本走的手工 QA 在缩小,QA 转去设计测试策略、维护测试基础设施、做 chaos engineering、负责性能压测,门槛比过去高得多。

变化三,SDET,也就是软件开发测试工程师,从几年前的稀有岗位变成大厂的标配。这类工程师本质是会写代码的 QA,在测试框架、自动化平台、数据治理上能独立作战。

变化四,产品经理被拉进测试设计的环节。新功能的 spec 文档里要附带测试用例,而不是事后再补。这件事看起来小,但能减少大量"实现完才发现需求不清"的返工。

整体的人员比例上,dev 对 qa 的比例确实更悬殊,但每个 dev 投入到测试上的时间反而上升了,团队整体在测试上的总投入并没有减少。

第一款,Playwright,微软主推的全栈选手

Playwright 是微软在 2020 年开源的端到端测试框架,过去几年快速成长,目前在新项目里是首选 e2e 工具之一。

它的亮点在跨浏览器、自动等待、多语言 SDK、内置 Codegen、Trace Viewer 这几个方面。一套代码可以同时跑 Chromium、Firefox、WebKit,元素出现和网络请求都会自动等不需要手写 sleep,TypeScript、JavaScript、Python、Java、C# 都有官方 SDK。Codegen 允许你打开浏览器手动操作一遍,自动生成对应的测试代码,这一点对刚入门的团队特别友好。Trace Viewer 是失败回放工具,把每一步的截图、网络请求、控制台日志都串起来,debug 极其方便。

适合的场景是新项目和大型 web 应用的 e2e 测试,社区活跃,文档完善,招人也最容易。完全开源免费,没有 SaaS 锁定。

不足是 mobile native 不支持,涉及原生 App 需要配合 Appium 这类工具。

第二款,Vitest,新一代单元测试框架

Vitest 是 Vite 团队出品的单元测试框架,在新前端项目里已经成为 Jest 之外最常见的选择。

它的速度优势主要来自 Vite 自身的 ESM 加载方式,启动比 Jest 明显更快。接口上和 Jest 高度兼容,从 Jest 迁移过来基本只需要改 import 路径,API 几乎一致。mocking、coverage、snapshot 都是内置功能,不需要额外装一堆插件。watch 模式智能识别相关测试,改一个文件就自动跑对应的部分。它还支持在源代码文件里直接写测试,小项目用起来非常顺手。

适合场景是新的 web 项目,Vue、React、Svelte、Solid 等任何前端框架都能用。完全开源免费。

不足是 Vitest 主要面向 Node.js 环境,浏览器原生运行场景需要额外配置。

第三款,testRigor,面向无代码测试的 SaaS 平台

testRigor 是一家成立时间不算长的 SaaS 测试平台,主打用自然语言写测试。

它的工作方式是,测试人员或产品经理用英文描述测试用例,例如"打开登录页,输入有效凭证,验证跳到 dashboard,检查右上角显示用户名",平台解析后转为底层命令执行。它的视觉级断言可以用 AI 做截图差异比对,跨平台覆盖 Web、Mobile native、API、Desktop,自愈测试机制在 UI 改动后能用启发式方式重新定位元素,减少维护负担。

价格属于面向企业的高位,具体以官网价目表为准,不是面向个人开发者的工具。

适合的是 QA 团队规模较大、产品经理愿意承担一部分测试编写工作、并且愿意付平台费的企业。

不足是上手快但定制空间有限,复杂的脚本化场景仍然要靠工程师写代码。

第四款,Cypress,仍是主力但增长在放缓

Cypress 是较早期就广为人知的 e2e 框架,在 React、Vue 生态里曾长期是默认选项。最近两年被 Playwright 追近不少,但仍然是主力工具之一。

它的特点是同源运行,测试代码和应用代码在同一个浏览器上下文里,debugging 体验非常直接。时间旅行功能能让你回看每一步的 DOM 快照,Test Runner 的 GUI 对新人非常友好。Component Testing 让它在 React、Vue 组件单元级测试上有不错的体验。

适合场景是已经在 Cypress 上有投资的项目,同时希望 e2e 和 component test 用一套工具的团队。

不足是同源运行的设计在跨域和多 tab 场景下不够灵活,这两个场景里 Playwright 通常更顺手。

Cypress 提供开源版和云端版本两个层级,具体定价以官网为准。

第五款,K6,性能测试的新标杆

K6 是 Grafana Labs 旗下的开源压测工具,目前在性能测试领域里是事实标准之一。

它用 JavaScript 写测试脚本,对前端工程师友好,单台测试机能模拟的并发量比传统 JMeter 高一个数量级。压测数据可以直接喂给 Grafana dashboard,后续可视化和告警都很顺。Cloud 版本支持多 region 分布式压测和长时间运行。Browser 模块加入后,K6 还可以做基于真实浏览器的用户旅程压测,而不只是 HTTP 请求层面的压力。

适合场景是任何需要性能测试的项目,从 API 压测到全栈用户场景测试都行。开源版完全免费,Cloud 版本提供托管能力,定价以官网为准。

不足是 GUI 偏弱,习惯 JMeter 图形界面的人需要适应代码化测试的方式。

第六款,Stryker,变异测试发现测试盲区

Stryker 是变异测试 mutation testing 的代表性框架,适合已经有较高覆盖率但仍然出 bug 的项目。

它的工作方式是自动修改你的源代码,例如把 a > b 改成 a < b,然后跑你的测试。如果测试仍然通过,说明这部分代码的覆盖是"假覆盖",测试没真正验证业务规则。这比单纯看 coverage 报告深入一层,coverage 100% 不代表测试质量好,Stryker 会把这些盲区直接暴露出来。

它支持 JavaScript、TypeScript、C#、Scala、PHP 几种语言,Java 通常通过 PIT 实现类似能力,Python 用 mutmut。

适合场景是已经有较高行覆盖但仍频繁出现回归 bug 的项目,变异测试报告能告诉你哪些测试是装饰用,哪些真的在保护代码。

不足是运行时间长,通常是单元测试时间的十几倍以上,不适合每次 commit 都跑,更常见的做法是每周或者每次发布前跑一次。

六款工具的组合使用建议

每个团队的栈不同,这里给出几种相对稳妥的组合。

Web 前端项目通常的搭配是 Vitest 跑单元测试,Playwright 跑 e2e,K6 做性能压测。已有 Cypress 投资的旧项目可以继续维护现有 Cypress 套件,新增模块再切到 Playwright。

后端 API 项目可以用 Vitest 或 Jest 跑单元和集成测试,Postman/Newman 跑 API 自动化,K6 跑压测。

跨平台移动端常见组合是 Detox 加 Playwright Mobile 做 e2e,Vitest 单元,K6 用于后端联动场景。

QA 主导的测试团队可以让产品经理或测试人员在 testRigor 上写业务场景,工程师用 Playwright 做 backup,K6 负责性能验证。

成熟项目想做深度优化,可以在已有测试基础上加 Stryker 做一次扫描,定位关键路径上的存活变异,然后针对性补测试。

每周时间分配上,一个比较健康的节奏是开发者大概七成时间写功能代码,两成时间写测试,一成时间用来 review 和优化测试本身。

测试金字塔在 AI 时代的微调

经典测试金字塔强调单元为主、集成次之、e2e 最少。AI 时代这个原则仍然成立,但比例上有一些微调的空间。

单元测试的比例仍然最大,但对质量的要求更高。AI 写单元测试容易,但 reviewer 必须把关,否则会出现一堆"装饰性"测试。

集成测试的比例略升。微服务和外部服务越来越多,跨服务边界的集成测试价值上升。

e2e 测试比例也有小幅上升。Playwright 这一代工具比几年前稳定得多,过去那种 flaky 噩梦没那么严重了。

视觉回归测试作为一个新分类出现得越来越多。AI 改 UI 比手工快,视觉变化频繁,加一层视觉回归比靠人眼盯靠谱。

总时间投入并不会因为 AI 而减少,因为虽然写测试单位时间变快了,但需要覆盖的场景也更广,整体上写测试投入小幅上升而不是下降。

怎样让 AI 写好测试

几条实战经验值得放在 review 流程里。

第一条是给 AI 写测试之前先把 spec 写清楚,input、output、edge case、错误处理都列明白,AI 不是读心术。

第二条是让 AI 一次性生成 5 到 10 个不同 input 的案例,人类审一遍删掉重复和假阳性,比让 AI 慢慢挤效率高。

第三条是 review 必看的几件事,断言是否真的覆盖业务规则、是否包含 null 和空数组之类的 edge case、是否 mock 了正确的依赖、测试名称是否描述清楚意图。

反模式不要犯。让 AI 生成大量"覆盖率到 95% 但每个测试只 assert 不报错"的测试,这种伪测试 Stryker 一跑就能露馅,反而让团队对覆盖率的信任崩塌。

常见问题 FAQ

我的项目几乎没测试,现在再加测试还来得及吗

来得及,但要分阶段。先给最关键的业务核心模块加单元测试,例如付款、登录、订单流程,这一阶段就能挡掉大多数严重事故。然后补 e2e 测试覆盖关键用户旅程,最后才轮到 utility 类辅助函数。不要追求一次性把覆盖率拉到很高的数字,先用 20% 的测试覆盖 80% 关键路径,多数项目几个月内就能建起 sustainable 的测试体系。

Playwright 和 Cypress 选哪个

新项目通常选 Playwright,跨浏览器、跨标签、跨域支持都比 Cypress 强,SDK 多语言可选。已有 Cypress 投资且团队很熟悉的项目继续用 Cypress 也没问题,Cypress 仍在持续更新,迁移成本不一定划算。

testRigor 这种 SaaS 工具值得每月几百美元吗

要看团队结构。如果 QA 团队规模较大、产品经理愿意写测试、整个组织希望减少 QA 的纯编码依赖,那花费可以摊得开。小团队或单 dev 项目通常不值,开源工具就足够覆盖。

变异测试 Stryker 这么慢,值得跑吗

值得,但不需要天天跑。建议每周一次跑全量,每次 release 前再跑一次,结果 review 后挑关键路径上的存活变异补测试。不要追求消灭所有变异,达到比较高的 kill rate 已经是优秀水平,继续打磨边际效用会下降。

AI 生成的测试可以直接 merge 吗

不可以。AI 生成测试常见三类问题。第一是断言过松,只检查 not null 而不检查具体值。第二是 mock 的数据和真实生产环境差距大。第三是只覆盖 happy path,缺少 edge case。所有 AI 生成测试必须有 human review,并且最好真的跑一次反向案例,看它能不能捕捉到典型 bug。

灵感来源:阮一峰《科技爱好者周刊》第 388 期 https://www.ruanyifeng.com/blog/2025/08/weekly-issue-388.html

📝 本文来自抖文 www.douwen.me ，转载请保留出处。

原文链接：https://douwen.me/archives/1073/

💬 评论 (10)

古

古今观察 2026-05-17 22:42 回复

案例很贴近实际

烟

烟雨江南 2026-05-17 21:59 回复

已转发给同事

躺

躺平选手 2026-05-18 07:35 回复

条理清楚,一看就懂

躺平选手 2026-05-17 11:43 回复

解决了我一直没搞清楚的问题

摸

摸鱼达人 2026-05-18 09:21 回复

深度好文,干货太多了

格

格局打开 2026-05-17 20:23 回复

结构清晰看着不累

历

历史迷小王 2026-05-18 08:48 回复

观点很到位

摸鱼达人 2026-05-18 09:37 回复

FAQ 部分特别实用

烟雨江南 2026-05-17 15:14 回复

收藏了反复看

刨

刨根问底 2026-05-18 07:51 回复

数据扎实不是水文