来源:中国数据分析行业网 | 时间:2020-06-17 | 作者:数据委
该数据分析借鉴的的背景数据来源于天池数据集,为2012年7月2日至2015年2月5日发生在淘宝天猫交易平台关于婴幼儿商品的交易数据。其中包括两个表格,截图如下:
涵括的字段有用户ID,交易编号,商品种类ID,商品类别,购买数量,购买日期,以及用户人为提供的个人信息如婴儿出生日期以及性别。字段含义解读如下:
分析目的
该分析旨在通过以往的数据总结以前的销售表现,找出需要改变及改善的地方,针对性采取有效措施以达到提升营业额的效果。
提出问题
分析思路
分析问题
由于整个分析过程都涉及到销量,所以在开始分析之前首先对购买量进行数据清洗。筛选购买量这一列可以发现,数据区间跨度非常大,对其作描述性统计发现,购买量的平均值不到3,标准差为65左右。
剔除与平均值的偏差超过三倍标准差的高度异常值,即大于199.64的数值都需要剔除。因为商品的单位不可能为小数,所以实际应剔除大于199的值。
分析流程是这样的:
对购买量进行多维度拆解:购买量=新用户购买量+老用户购买量
新用户为首次出现,以前没有过购买行为的用户id,老用户为以前有过购买行为(重复的)的用户id。
通过查找重复值得知老用户为27个,占比为27/28396=0.93%,不到1%。换句话说,总购买量几乎全是由占比大于99%的新用户造成的,因此在这里我们忽略老用户的购买量。而且,从以往的销量折线图可以看出,2015年数据下跌是因为数据集里关于这一年的数据不全,只有1月和2月的数据。
假设在这一年里头两个月销量下跌,找出2015年的销售数据,同比历年的数据,来判断是否假设是对的。
由于2012年缺乏上半年的数据,因此我们只能对比2013,2014和2015年销量。从图中可以看出,2015年1月销量大幅高于2013和2014年,2月销量低于前两年,但总和并不少于前两年。所以依据当前的数据不能证明2015年销量下跌,假设不成立。
分析流程如下:
假设下半年销量上涨是因为所有类别销量上涨。我们提取各个季度各商品类别的销量数据,得到下图。
从上图可以看出,第一二季度销量基本持平,第三季度的销量主要是由类别5008168,和28带来的,其他类别没有明显变化。第四季度销量主要是由类别50014815,28带来的,其他类别差别不大。所以可以说季度销量的上升是由于某个季度某些商品类别的销量上涨导致的。
再来深究为什么第三季度和第四季度的销量主要贡献者类别5008168和50014815会在下半年出现大幅度增长。
首先从类别5008168开始。搜集第三季度销量数据可以得到下图。
从图中可以看到,7-9月期间大部分时间销量都是比较平稳,唯独9月20日这天该产品的销量达到了2815。进一步搜集数据发现,是因为在2014年该产品的销量远远大于2012和2013年。
找出2014年9月该产品的销售数据,得到如下图。
上图告诉我们,在2014年9月20号当天,508168的销量达到了2779。
由于当年当月的节日如中秋节在9月8号,教师节在9月10号,产生热销的原因没办法证实。但可以揣测是因为商家对该类产品做了促销活动导致的销量上涨,从而导致第三季度销量上升。
再来看类别50014815。
它在第四季度的11月份有一个显著的增长高峰。
数据告诉我们,它的增长主要来源于2014年11月13日的销量高峰,达到10029. 下面是该产品历年的11月销量图。
上面三个图我们可以看出,历年来11月的销售高峰并没有出现在双十一当天,而是2012年的11月10号,2013年的11月30号,2014年的11月13号。虽然2013年双十一那天出现了销量小高峰,但影响效果并不大。在其他日子出现销量大幅上涨,猜测是由于商家进行了其他促销活动,但缺乏数据支撑。
分析流程如下:
表1用If函数计算出成交单量,对表2用vlookup函数关联表1的购买日期,购买数量,商品大类,成交单量。清洗数据集并统计有效数据后发现用户里有406个女童,444个男童。所以男童用户比女童用户多。
从上图得知,男女的购买比例为62%:38%。
显然男女用户的比例不足以造成如此悬殊的销量比例。
将购买量多维度拆解,可以得到:总购买量=成交单量*每单购买量
假设是因为男童的成交单量造成的。
男女用户比例跟成交单量比例是一样的,所以男童的购买量大于女童购买量可以说完全是因为男童的每单购买量大于女童的每单购买量导致的。
那又是什么年龄段的男童的每单购买量比较大呢?
可以看出,5岁以后的男童基本不再产生购买行为。主要买家为1岁以前的男童家长。
购买量=各个商品类别的购买量之和
由上图可以看出,所有的类别的购买量随着年龄的增加都在下降。类别50022520从一开始就一直在下降,剩下的其他产品类别的趋势是先上升,幅度或大或小,然后再都下降。仔细看来,类别,50014815,50008168和28的销量高峰都产生在年龄为0岁,类别122650008和38的销量高峰产生在年龄为1岁的时候。
因此可以说1岁以后所有类别销量都在下降,可以猜测这些商品类别应该是适用低龄幼儿的产品。但不同年龄的销量高峰对应的产品类别不同,又说明这些产品的受众不同,应该采取分年龄营销策略。
结论
建议