首页 > 大数据 > 正文

京东出品!写给大家看的数据分析思路(一)

2020-03-02 16:59:20  来源:优设

摘要:数据分析主要分为 6 大步骤:构建 X 问题 – 提出假设 & 选择指标 – 数据采集与整理 – 数据分析 – 数据呈现 – 提出后续建议。下文将围绕这 6 步详细讲解每一步具体是如何做的。
关键词: 京东 数据分析
  美国前邮政部长,美国百货商店之父,约翰·华纳梅克(John Wanamaker)感叹到:「我在广告上的投资有一半是无用的,但是问题是我不知道是哪一半」。这种类似的感叹现在也经常发生在我们身边。
 
\
 
  小 A 同学:在项目结束后,拿到了项目数据,看看自己的方案是否有带来数据上的增长,但面对一堆 Excel 表里一堆密密麻麻的数字,却不知从何下手……
 
  小 B 同学:拿到了自己花大精力投入的项目数据,满怀期待地想来验证自己在项目中推动落地的好几个方案,还把项目过往数据也找来进行对比,一顿操作之后,看到整体数据上涨了,但因为影响因素特别多,具体是哪些方案产生了作用却无从知晓……
 
  我们更常遇到的情况是不知道该如何去运用数据,让数据带来实际上的作用。本文将围绕实际的数据分析步骤,更细化地来讲讲具体是如何进行下去的。
 
  数据分析6步曲
 
  数据分析主要分为 6 大步骤:构建 X 问题 – 提出假设 & 选择指标 – 数据采集与整理 – 数据分析 – 数据呈现 – 提出后续建议。下文将围绕这 6 步详细讲解每一步具体是如何做的。
 
  1. 构建X问题
 
  从本质上来说,数据分析的最终目的在于解决问题。带着不同的出发点得到的数据结果可能会很不一样。所以,一切分析的开始必须要先识别要解决的重要问题是什么,以及这个问题为什么是最重要的。这两个问题将引导我们进入构建问题的过程,也就是明确数据分析的目的。
 
  从哪入手
 
  有预判类的分析,可以从已有的策略方案出发,寻找相应定量衡量方法。例如,尝试通过强化某促销 A 页面利益点等相关信息,从而促进用户购买,此案例则可以直接预设 X 问题为:「强化利益信息是否可以提升转化率」。
 
  而无预判类(发现问题或机会)的分析,构建问题的起点往往是业务角度的商业目标,通过指标拆解、经验判断、横向对比、逻辑推导等方式来寻找有效的实现方式。例如,某电商促销页面 B 的核心目标是「提升 GMV(销售额)」,而 GMV=流量×转化率×客单价,就可以围绕提升转化率、客单价等指标出发去寻找解决方案。
 
  判断是否重要
 
  有预判类的问题,可以直接寻找指标评估验证结果可靠与否即可。
 
  无预判类(发现问题或机会)的则可以通过评估该问题解决后,能够对最重要的商业目标带来的增益会有多大。例如,上述提升 GMV 的案例中,通过横向对比相同类页面的数据,发现此页面的转化率为 1.8%,明显低于同类页面 4.7% 的转化率,而流量和客单价与同类页面基本持平,故判断转化率极有可能是「提升 GMV(销售额)」的关键点,所以可定义「提升转化率的关键因素是什么」为此页面数据分析的重要问题。
 
  定义X问题
 
  可以根据不同的类型用一个问句来表达,如何/哪种/是否/原因是什么等。根据经验,细化之后的常见问题有以下几类,每类都可以用一个 X 问题来描述。
 
  • 实验验证类,已经有了假设和方案,待验证效果,如 A\B\C 三种策略,哪种效果更有利于提升转化率或策略 A 是否有助于提升转化率;
  • 寻找原因类,看到了某现象,希望寻找背后的原因,如导致跳失率急剧上升的原因是什么;
  • 结果呈现类,不带预判的呈现事实,如通过数据呈现项目 D 的转化与售卖情况;
  • 预测类,通过寻找事物发生的规律,来预测接下来可能发生的事件,如一年之中用户购买美妆用品是否存在时间上的购买规律,美妆类目运营可依据此规律来制定年度活动计划。
 
  注意
 
  问题的范围不可过于宽泛。往往要得出一个可靠且明确的结论,会需要收集数据并将数据应用到一个可检验的假设身上。如果问题太宽泛,数据收集就会变得非常困难。举个反例:「项目 D 的数据效果是否有变好」,这个例子中,「是否有变好」可能的方向有拉新效果是否有变好/销售是否有变好/跳失情况有变好等非常多种方向,每个方向都做探索将使你本次分析驶入无边大海迷失方向。但也不要过早地限制问题范围,刚开始时,可以开放性地思考问题,在脑中形成一些可供选择的方向。例如,「可能带来 D 项目的销售变好的可能情况是 1、2、3,通过初步数据来看 3 的可能性会更高一些」,然后就可以往 3 的方向深入分析下去了。
 
  2. 提出假设,选择指标
 
  在上一步中,我们已经明确了 X 问题,即数据分析的目标。接下来,我们将围绕 X 问题,提出该问题的结论假设,并建立模型(选择衡量指标)来验证假设是否成立。
 
  提出假设
 
  针对有预设的问题,假设可以直接来源于问题,如方案 A 有助于提升转化率。对于没有实现预设的问题,则需要我们围绕问题进行穷举可能的假设,如页面 E 的跳失率急剧下降,可能原因有:
 
  • 流量来源的用户质量变差了;
  • 流量入口放错了信息,导致用户进入后预期不符;
  • 首屏商品选品问题;
  • 首屏信息设计用户无法理解/无吸引力;
  • 页面加载出现问题等。
  • 根据假设,选择衡量指标
 
  不同类型的假设,衡量方式会不一样,有些假设可能还需要定性调研配合来验证。在电商定量数据范围来看,可以参考以下思路:
 
  • 关于流量的假设,可选取流量相关的指标如浏览 UV/PV、各渠道流量来源 UV/PV;
  • 关于销售类的假设,可选取订单相关的指标,如引入订单金额、引入订单数量、转化率、UV 价值;
  • 关于用户行为的假设,可以选取页面操作相关的指标,如点击 UV/PV、页面点击率、曝光点击率、人均点击次数、浏览深度等;
  • 关于用户人群的假设,可以选取用户画像数据,如性别、年龄、城市线级、新老用户等,且可同时结合页面操作数据进行细化人群行为分析。
 
  3. 数据采集与整理
 
  数据源分为定量数据和定性数据,定性数据更偏用研方法,本文将注重讲定量数据的采集与整理。
 
  数据采集
 
  各平台的原始数据正在进入指数级爆炸的阶段,仅从电商平台来看,各类数据指标都非常的多而复杂。在采集之前的一个阶段,必不可少的是与数据产品或开发人员明确:数据指标的计算规则以及需要的数据指标列表(包括对应的时间段、平台端),防止等到要提数的时候结果发现没有数据或者数据计算方式不合理。
 
  数据整理
 
  数据整理的第一步是数据清洗,原始的数据表往往含有不少脏数据,如测试数据、异常值、空缺等等,直接用来计算分析可能会导致数据结论有偏差或无法计算。数据清洗就是要将原始数据表处理成可方便计算分析的干净整洁的数据表。主要包括:
 
  • 删除重复数据,可通过 Excel 的 COUNTIF 函数或者筛选排序来进行操作;
  • 检查数据格式,原始数据里可能会有特殊格式如 N/A、####、性别为数值等情况,可根据实际情况判断如何处理;
  • 检查异常数据,可以着重关注极小值和极大值,小数点,负数等,明显不符合实际情况的,可以排查原因,选择删除或重新提取数据;
  • 处理缺失数据,这个最常见的情况,一般情况可接受的标准是缺失值在 10% 以下,超过就需要酌情看是否有办法重新提取了;
  • 检查数据逻辑错误,可以抽样选取数据进行计算检查,如计算页面点击率=点击 UV/页面浏览 UV,假如算出页面点击率大于100%,就可能是有数据异常了,需要重新排查指标统计方式是否正确等。
 
  数据加工计算
 
  数据整理好之后,可以进行初始的数据加工了。因为原始数据可能并不符合我们的分析需求,比如,我们想看的是某模块的数据,但原始数据是拆成每一个点击位的数据,我们就需要把每个点击位的数据进行求和等操作,转化成模块数据。还有一些常见的情况是利用标准的行业计算公式,将某几个指标进行数理计算得到另一个指标,如订单 UV 价值=GMV/页面 UV、订单转化率=引入订单数/页面 UV、人均点击次数=点击 PV/点击 UV等,通过这一步的操作,我们将能初步看到要验证假设需要的一些基本指标的数据了。
 
  4. 数据分析
 
  数据整理完之后就到了真正的重头戏——数据分析了,也是含金量最高的一步。做数据分析有一个非常基础但又极其重要的思路,那就是对比,基本上 90% 以上的分析都离不开对比。沿着假设及衡量指标的思路,我们有了一个假设「X 策略可以提升 A 页面转化率」,且定义了此假设的衡量指标为「页面转化率」,当我们拿到页面转化率指标后,转化率需要达到多少才算好呢?是否是因为 X 策略带来的提升,还是可能是时间规律上的自然上涨?这时就可以通过对比来分析了。
 
  • 纵比:在时间维度上,对比页面 A 在使用 X 策略后,页面转化率是否提升了?
  • 横比:选取同时期的同类页面-页面 B,横向对比老页面 A、新页面 A、B 三个页面的转化率对比情况。
  • 与经验值对比:可以拉取更长的时间段,看 A 页面的转化率变化规律,看使用 X 策略是否高于时间规律上的预期值;可以选取更多同类页面,选取同时期的转化率对比,看 A 的转化率处于哪个位置?与业务目标对比:假如大的业务目标其实是 GMV 为 2000w,在页面浏览 UV 和 UV 价值稳定的情况下,计算目标转化率=目标 GMV/页面浏览 UV/UV 价值,然后对比目标转化和目前转化的差距。
  • 与业务目标对比:假如大的业务目标其实是 GMV 为 2000w,在页面浏览 UV 和 UV 价值稳定的情况下,计算目标转化率=目标 GMV/页面浏览 UV/UV 价值,然后对比目标转化和目前转化的差距。
 
  各个角度的对比都能帮助你更清晰地理解目前指标的情况,然后就可以据此继续做下一步计划了。

第三十届CIO班招生
法国布雷斯特商学院硕士班招生
北达软EXIN网络空间与IT安全基础认证培训
北达软EXIN DevOps Professional认证培训
责编:baiyl