The Wayback Machine - https://web.archive.org/web/20221025114652/https://baike.sogou.com/kexue/d10767.htm

A/B测试

编辑
网站上的A/B测试示例。通过随机方法为访问者提供一个网站的两个版本,这两个版本仅在单个按钮元素的设计上有所不同,这两个设计的相对效率可以测量。

A/B测试(桶测试或分批测试)是一个随机实验,有两个变量,A和B。[1][2]它包括应用统计假设检验或统计领域中使用的“双样本假设检验”。A/B测试是一种比较单一变量的两个版本的方法,通常通过测试受试者对变量A和变量B的反应,并确定两个变量中哪一个更有效。

顾名思义,比较了两个版本(A和B),除了可能影响一个用户行为的变化之外,这两个版本是相同的。版本A可能是当前使用的版本(控件),而版本B在某些方面被修改(处理)。例如,在一个电子商务网站上,购买漏斗通常是A/B测试的良好候选者,因为即使是下降率的微小改进,也能代表销售的显著增加。通过测试一些元素,诸如文本、布局、图像和颜色等元素可以看到显著的改进,[3]但并非总是如此。

多变量测试或多项测试类似于A/B测试,但可以同时测试两个以上版本或使用更多控制。简单的A/B测试不适用于观察、准实验或其他非实验情况,这在调查数据、离线数据和其他更复杂的现象中很常见。

一些人将A/B测试作为一种改变哲学和商业策略的手段,已经在某些特定领域的进行营销,尽管该方法与主题间设计相同,后者通常用于研究各种传统设计。[4][5][6]A/B测试作为一种网络开发理念,使该领域与更广泛的循证实践相一致。人工智能测试的好处被认为是几乎可以在任何事情上连续执行,特别是现在大多数市场营销自动化软件通常都具有持续运行A/B测试的能力。

1 常见测试统计编辑

“双样本假设检验”适用于比较两个样本,其中样本被实验中的两个对照案例分开。z检验适用于在关于正态性和已知标准偏差的严格条件下比较平均值。学生的t检验适用于在假设较少的情况下,在比较宽松条件下比较均值。韦尔奇的t检验假设最小,因此是两个样本假设检验中最常用的检验,其中度量的平均值要优化。虽然待优化变量的均值是估计量的最常见选择,但其他方法也经常被使用。

为了比较两个二项式分布,例如点击率,可以使用费希尔的精确检验。

假设分布 列举案例 标准检验 替代检验
高斯分布 每位付费用户的平均收入 韦尔奇t检验(非配对t检验) 学生t检验
二项式分布 点击率 费舍尔的精确检验 巴纳德检验
泊松分布 每个付费用户的交易 E-检验[7] C-检验
多项式分布 每件购买产品的数量 卡方检验
未知分布 -- 曼-惠特尼U检验 吉布斯采样

2 历史编辑

像大多数领域一样,为一种新方法的出现设定一个日期是困难的,因为一个主题在不断演变。可以定义差异的地方是,当使用来自总体的一切假设信息到仅对总体中的个别样本进行的测试。这项工作是在1908年由威廉·希利·戈塞完成,当时他改变了Z检验,创造了学生的t测试。[8][9]

谷歌工程师在2000年进行了第一次人工智能测试,试图确定在搜索引擎结果页面上显示最佳结果数量。[10]第一次测试没有成功,因为加载时间慢导致故障。后来,人工智能测试研究将更先进,但基础和基本原则通常保持不变,在谷歌第一次测试11年后,2011年谷歌进行了7000多次不同的A/B测试。[10]

3 发送电子邮件的活动示例编辑

一家拥有2000人客户数据库的公司决定创建一个带有折扣代码的电子邮件活动,以便通过其网站进行销售。它创建了两个版本的电子邮件,具有不同的行动号召(副本中鼓励客户采取行动的部分 —在销售活动中,进行购买)并识别促销代码。

  • 它向1000人发送了一封带有行动号召的电子邮件,上面写着:“本周六结束优惠活动!使用代码A1”,
  • 它还向另外1000人发送了一封电子邮件,上面写着“优惠活动即将结束!使用代码B1”。

电子邮件副本和布局的所有其他元素都是相同的。然后,公司通过分析促销代码的使用情况来监控哪个活动成功率更高。使用代码A1的电子邮件的回复率为5%(1000封电子邮件中有50封使用代码购买产品),使用代码B1的电子邮件的回复率为3%(30名收件人使用代码购买产品)。因此,公司决定在这种情况下,第一个行动号召更有效,并将在未来的销售中使用它。更细微的方法包括应用统计测试来确定A1和B1之间的响应率差异是否具有统计学意义(也就是说差异很大可能是真实的、可重复的,但不可能是随机的机会)。[10]

在上面的示例中,测试的目的是确定哪种方法是鼓励客户进行购买的更有效方式。但是,如果测试的目的是查看哪个电子邮件会产生更高的点击率 - 即在收到电子邮件后实际点击网站的人数 - 那么结果可能会有所不同。

例如,尽管更多收到代码B1的客户访问了网站,但因为“行动号召”没有说明促销的结束日期,所以他们中的许多人可能没有立即购买的紧迫感。因此,如果测试的目的只是为了看看哪封电子邮件会给网站带来更多流量,那么包含代码B1的电子邮件可能会更成功。A/B测试应该有一个可测量的定义结果,例如销售额、点击率转换或注册人数。[11]

4 细分和目标编辑

A/B测试最常见的是以相同的概率对所有用户应用相同的变量(例如,用户界面元素)。然而,在某些情况下,对变量的响应可能不同。也就是说,虽然变量A总体上可能具有更高的响应率,但变量B在客户群的特定部分中可能具有更高的响应率。[12]

例如,按性别划分的答复率可以如下所示:

性别 全部人数 男性 女性
总发送量 2,000 1,000 1,000
总回复数量 80 35 45
变量A 50 1,000 (5%) 10 500 (2%) 40 500 (8%)
变量 B 30 1,000 (3%) 25 500 (5%) 5 500 (1%)

在这种情况下,我们可以看到,虽然变量A总体上有较高的反应率,但变量B实际上对男性有较高的响应率。

因此,公司可能会选择A/B测试的细分策略,将变量B发送给男性,变量A发送给女性。在本例中,分段策略将促使预期响应率从       –增加了30%。

需要注意的是,如果预期从A/B测试中获得分段结果,那么测试应该在一开始就进行适当的设计,以便在关键的客户属性(如性别)中均匀分布。也就是说,测试应该(A)包含有代表性的男女样本,以及(B)将男性和女性随机分配到每个“变量”(变量A与变量B)。否则会导致实验偏差和从测试中得出不准确的结论。[13]

这种细分和目标定位方法可以进一步推广到包括多个客户属性,而不是单个客户属性 –例如,客户的年龄和性别–识别测试结果中可能存在的更细微的模式。

5 接受编辑

许多公司使用“设计实验”的方法来做出营销决策,期望相关的样本结果能够提高正转换结果。[14]随着该领域工具和专业知识的增长,这种做法越来越普遍。通过对许多测试案例研究表明,测试的实践也越来越受到中小企业的欢迎。[15]

参考文献

  • [1]

    ^Kohavi, Ron; Longbotham, Roger (2017). "Online Controlled Experiments and A/B Tests". In Sammut, Claude; Webb, Geoff. Encyclopedia of Machine Learning and Data Mining (PDF). Springer..

  • [2]

    ^Kohavi, Ron; Thomke, Stefan (September 2017). "The Surprising Power of Online Experiments". Harvard Business Review: 74–82..

  • [3]

    ^"Split Testing Guide for Online Stores". webics.com.au. August 27, 2012. Retrieved 2012-08-28..

  • [4]

    ^Christian, Brian (2000-02-27). "The A/B Test: Inside the Technology That's Changing the Rules of Business | Wired Business". Wired.com. Retrieved 2014-03-18..

  • [5]

    ^Christian, Brian. "Test Everything: Notes on the A/B Revolution | Wired Enterprise". Wired.com. Retrieved 2014-03-18..

  • [6]

    ^Cory Doctorow (2012-04-26). "A/B testing: the secret engine of creation and refinement for the 21st century". Boing Boing. Retrieved 2014-03-18..

  • [7]

    ^Krishnamoorthy, K.; Thomson, Jessica (2004). "A more powerful test for comparing two Poisson means". Journal of Statistical Planning and Inference. 119: 23. doi:10.1016/S0378-3758(02)00408-1..

  • [8]

    ^"Brief history and background for the one sample t-test"..

  • [9]

    ^Box, Joan Fisher (1987). "Guinness, Gosset, Fisher, and Small Samples". Statistical Science. 2 (1): 45–52. doi:10.1214/ss/1177013437..

  • [10]

    ^"The ABCs of A/B Testing - Pardot". Pardot (in 英语). Retrieved 2016-02-21..

  • [11]

    ^Kohavi, Ron; Longbotham, Roger; Sommerfield, Dan; Henne, Randal M. (2009). "Controlled experiments on the web: survey and practical guide" (PDF). Data Mining and Knowledge Discovery. Berlin: Springer. 18 (1): 140–181. doi:10.1007/s10618-008-0114-1. ISSN 1384-5810..

  • [12]

    ^"Advanced A/B Testing Tactics That You Should Know | Testing & Usability". Online-behavior.com. Retrieved 2014-03-18..

  • [13]

    ^"Eight Ways You've Misconfigured Your A/B Test". Dr. Jason Davis. 2013-09-12. Retrieved 2014-03-18..

  • [14]

    ^"The Complete Guide To Conversion Rate Optimization". Omniconvert. Retrieved 2017-01-05..

  • [15]

    ^* "A/B Split Testing | Multivariate Testing | Case Studies". Visual Website Optimizer. Retrieved 2015-09-08. "A/B Testing Case Studies". Optimizely. Retrieved 2015-11-24. "A/B Testing Case Studies". Convert.com. Retrieved 2018-01-11. "Apptimize Mobile A/B Testing Case Studies". Apptimize. Archived from the original on 2016-05-01. Retrieved 2016-04-24..

阅读 3694
版本记录
  • 暂无