您的位置:首页 > 科技 > 数码 > 深度: 数据分析3步走

深度: 数据分析3步走

2018-04-07 来源:  浏览:    关键词:
步骤二:从初始数据中建立一些假设
数据分析的核心是建立建设、验证假设。所以其实不需要多么高深的数学或统计学知识,只要有最基本的假设检验的概念就可以了。
在步骤一中,你可能找到一些蛛丝马迹似乎能论证结论。例如你发现了某个数据变化的同时结论数据也变化了。但是要记住这个线索只是假设,不要立刻当成结论。否则的话很可能会在后面被新出现的证据推翻。
在这一步中,把发现的线索当作假设,然后应该思考怎么进一步去论证,需要哪些进一步的数据。
步骤三:进一步搜集数据,论证假设
1 是自然下降/上升吗?
出现数据问题,可以先评估是自然波动吗?
假设步骤一中的案例,渠道E中X供应商在某个周末下单数增加。它的应单率减少。应单率指的是在用户下的订单中,司机接单的数量。
提出假设:X下单数增加导致司机运力不足,从而应单率减少。
但首先可以评估下是否自然波动。例如是否只要周末X的应单率就会下降。可以对比之前周末的数据。
2 有可能是整体性因素吗?
排除了自然波动,看一下是否有整体性因素?
例如那周末暴雨,导致航班变化、取消比较多。因而订单自动取消了。而这个因素不仅仅影响X供应商,也会影响Y供应商。那么可以看Y供应商的应单率是否也下降了。
3 是假设导致的吗?
排除了以上2种情况,就要开始论证假设。假设论证一般是因果关系的论证。
即A导致B,这一论证除了去看出现A 是否出现B,还要看
出现A 是否有非B 未出现A是否一定是非B 是否有B 有B的情况是否一定是A,是否有非A 非B的情况是否有A,是否是非A
例如,要论证A的增长引起了B的增长,通常需要看
有A增长时,B是否增长 A不变或下降时,B是否不变或下降 A增长幅度大或小时,B增长幅度是否大或小 以及反面的情况
如果只能看到A和B的数据,没有非A或非B的数据怎么办呢?
例如我们在接送机的列表页新上了一个返现报价的产品。但是购买返现产品的用户比较少。由于返现产品原价高会被价格低的普通产品挤下去,导致有些情况用户在第一屏看不到返现报价。我们推测返现整体露出少(A)所以效果差(B),但除了做AB测试再定义个逻辑,我们不可能找到整体返现露出多的情况。
这个时候,可以看子维度。
看子维度,且不要只看一个子维度,穷尽子维度是否能得出假设。 看子维度的子维度。看子维度是否能再分也能提供信息。
不同车型(经济型、舒适型、豪华型等)都有返现。有些车型普通产品少,返现产品露出多。返现露出多的车型效果是否更好?还有一个子维度是城市。有些城市的普通产品也比其他城市少。不同城市的不同车型露出不同。该城市该车型露出多,该城市该车型是否效果好?等等.
有时,一件事不能很直接找到原因,而是有一个长的因果链。那应该找出因果链每一环,定义测量指标,对每一环论证。
例如步骤一里的案例实际是个因果链。
Y供应商下单增长(指标:下单数) -> 导致司机运力不足(指标:应单率=接单数/下单数) -> 接不起(指标:完成单率=完成单数/接单数)
除了看下单数和完成单数,还要关注应单率的变化。
这一步骤中会有一个问题:有些数据比较难找。此时可以进行估算。
例如评估产品露出对返现影响那个项目时,需要看不同城市的露出率。由于接送机需要用户先输入时间地址,再根据用户选择的区域展示该区域的产品。有些区域有返现露出,有些没有。前端很难记录多少概率下该城市返现是露出的。
于是我就想,如果知道一个城市的热门区域地址,将它们一个个输入查看,记录是否露出,不就能估算该城市的返现露出率了吗?那怎么知道一个城市热门区域有哪些呢?我打开携程酒店,上面就有城市热门区域嘛~接送机的客户一般都是旅游或出差,所以酒店入住的热门区域也差不多是接送机用户地址的热门区域。
完美。返回搜狐,查看更多
本文由简书-TaraChen 原创发布,授权互联网早读课转载。内容仅代表作者独立观点,不代表早读课立场。如需转载,请联系原作 者。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:service@qeerd.com,投稿邮箱:tougao@qeerd.com