Skip to content

A/B测试结果分析

问题描述

产品上线了一个A/B测试,测试新版结账流程对转化率的影响。测试跑了两周,现在需要分析结果并决定是否全量上线。

传统思路

  1. 看转化率数字 - A组10%,B组12%,B高所以上B
  2. 简单计算提升 - 提升了20%,很好
  3. 忽略统计显著性 - 不确定差异是否真实
  4. 只看主指标 - 忽略对其他指标的影响

风险:可能做出错误决策,要么错失机会,要么上线负向功能

AI思维

第一步:理解实验设计

请帮我分析这个A/B测试结果。

实验信息:
- 实验目标:测试新版结账流程是否提升支付转化率
- 实验时间:2周(12月1日-14日)
- 流量分配:50% / 50%
- 样本量:对照组(A) 50,000用户,实验组(B) 50,000用户

实验数据:
对照组(A):
- 进入结账页:50,000
- 完成支付:5,000
- 转化率:10.0%

实验组(B):
- 进入结账页:50,000
- 完成支付:5,500
- 转化率:11.0%

请分析:
1. 这个差异是否具有统计显著性
2. 需要关注哪些其他指标
3. 是否建议全量上线

AI 分析:

A/B测试分析报告

1. 统计显著性检验

假设检验

  • H0(零假设):两组转化率相同
  • H1(备择假设):实验组转化率更高

计算

对照组转化率 p1 = 10.0% (5000/50000)
实验组转化率 p2 = 11.0% (5500/50000)
合并转化率 p = (5000+5500)/(50000+50000) = 10.5%

SE = sqrt(p*(1-p)*(1/n1 + 1/n2))
   = sqrt(0.105*0.895*(1/50000 + 1/50000))
   = 0.00194

Z = (p2 - p1) / SE
  = (0.11 - 0.10) / 0.00194
  = 5.15

p-value < 0.0001 (极显著)

结论:差异具有统计显著性(p < 0.01),实验组的提升是真实的。


2. 效应量评估

绝对提升:1个百分点(10% → 11%)

相对提升:10%((11-10)/10)

业务价值(假设平均客单价200元):

每月进入结账页用户:200,000(估算)
新增转化用户:200,000 * 1% = 2,000
月增收入:2,000 * 200 = 400,000元

置信区间(95%):

  • 转化率提升区间:[0.62%, 1.38%]
  • 说明:真实提升有95%概率落在这个区间内

3. 需要关注的其他指标

⚠️ 在决策前,需要检查这些指标

指标关注原因
客单价转化提升是否以牺牲客单为代价
退货率是否"催促"了用户导致冲动购买
支付耗时新流程是否让用户体验变差
新用户 vs 老用户效果是否在不同人群一致
移动端 vs PC端效果是否跨端一致

数据请求

请提供实验组和对照组的:
1. 平均客单价
2. 7日内退货率
3. 结账页平均停留时间
4. 按新老用户分组的转化率

4. 初步建议

如果其他指标无异常:✅ 建议全量上线

  • 统计显著
  • 提升幅度可观(10%相对提升)
  • 业务价值明确(月增40万收入)

如果存在以下情况,需要谨慎

  • 客单价下降超过5%
  • 退货率上升超过2个百分点
  • 新用户效果显著差于老用户

第二步:深入分析

补充数据:

客单价:
- 对照组:205元
- 实验组:195元(下降4.9%)

退货率:
- 对照组:8%
- 实验组:9%(上升1个百分点)

按用户分组转化率:
- 新用户:对照8%,实验10%(+25%)
- 老用户:对照12%,实验11.5%(-4%)

请更新分析和建议。

AI 更新分析:

更新分析

关键发现 ⚠️

1. 存在负面信号

指标变化影响
客单价-4.9%抵消部分收益
退货率+1pp增加运营成本
老用户转化-4%核心用户体验下降

2. 收益重新计算

原估算月增收入:400,000元

客单价影响:
- 新转化率带来的用户:200,000 * 11% = 22,000
- 新客单价收入:22,000 * 195 = 4,290,000
- 原转化率对应收入:200,000 * 10% * 205 = 4,100,000
- 实际增收:4,290,000 - 4,100,000 = 190,000元

退货影响:
- 退货增加:22,000 * 1% = 220单
- 退货成本(按20元/单):4,400元

净收益:约185,000元(非原估算的400,000元)

3. 用户分群问题

人群效果解读
新用户+25%新流程降低了新用户门槛
老用户-4%老用户可能不适应变化

这是典型的"新老用户效果相反"案例。


修订建议

方案A:分人群上线(推荐)

  • 新用户:上线新版(收益明显)
  • 老用户:保持旧版(避免负影响)
  • 预期收益:正向,规避风险

方案B:延长测试 + 优化

  • 分析老用户不适应的具体环节
  • 优化后再测试
  • 适合追求最优解的情况

方案C:直接全量(不推荐)

  • 风险:老用户流失
  • 可能:短期收益被长期损失抵消

决策矩阵

方案短期收益长期风险实现成本推荐
A分人群
B延长优化
C直接全量

第三步:设计后续计划

我们决定采用方案A(分人群上线)。请帮我:
1. 设计实施计划
2. 设计监控方案
3. 设计回滚条件

AI 设计计划:

分人群上线实施方案

1. 实施计划

阶段一:技术准备(D1-D3)

  • [ ] 实现用户分群逻辑(新老用户判断)
  • [ ] 配置功能开关(支持按用户类型切换)
  • [ ] 测试环境验证

阶段二:灰度发布(D4-D7)

  • [ ] 先发布10%新用户流量
  • [ ] 监控异常指标
  • [ ] 无问题后扩大到100%新用户

阶段三:持续监控(D8+)

  • [ ] 每日检查核心指标
  • [ ] 周度深度分析

2. 监控方案

实时监控(每小时)

  • 支付成功率
  • 支付错误率
  • 页面报错数

日度监控

指标预警阈值熔断阈值
新用户转化率<9.5%<9%
支付成功率<95%<90%
客单价<185元<175元

周度分析

  • 留存影响
  • 用户反馈
  • 财务核算

3. 回滚条件

自动回滚(任一触发):

  • 支付成功率 < 90%
  • 支付错误激增(>3倍)

人工决策回滚

  • 新用户转化率持续低于对照
  • 大量用户投诉
  • 客单价跌破175元

回滚流程

  1. 触发条件 → 2. 值班同学确认 → 3. 一键回滚 → 4. 通知相关方

结果对比

指标传统方式AI思维
决策质量可能误判数据驱动
风险识别容易忽略全面检查
分析深度看表面多维分析
后续计划缺失完整方案

关键洞察

  1. 统计显著性是基础:不能只看数字大小
  2. 关注副作用:主指标提升可能伴随副作用
  3. 分群分析:不同人群效果可能相反
  4. 决策要有后手:监控方案和回滚条件

A/B测试分析Prompt

请帮我分析A/B测试结果。

## 实验信息
- 目标:[实验目的]
- 时间:[实验时长]
- 样本量:A组[X],B组[Y]

## 实验数据
[核心指标数据]

## 补充数据(可选)
[客单价、退货率、分群数据等]

请分析:
1. 统计显著性
2. 业务价值
3. 潜在风险
4. 上线建议

Released under the MIT License.