淘宝婴儿用品数据分析

使用excel进行数据分析

Posted by 佘晓斌 on September 3, 2019

前言

作为中国深受欢迎的网购零售平台,淘宝网拥有近5亿的注册用户数,每天有超过6000万的固定访客,同时每天的在线商品数已经超过了8亿件,平均每分钟售出4.8万件商品。

在对众多商品进行分类后,淘宝网目前主要有十一种一级类目,其中包括母婴用品。近年来,随着母婴行业管理秩序的规范及其商品品质的提升,淘宝母婴用品对消费者散发着巨大的吸引力。2013年12月,我国开始实行单独二孩政策;随着二胎政策的逐渐放开,新生儿迎来小高峰,新生代父母的消费潜力大,消费意识与消费能力升级,母婴行业迎来黄金时代。

而这篇文章的主要内容是利用2016 版本的EXCEL对2013年~2014年淘宝母婴用品的交易信息进行数据清洗和分析,以及结果的可视化;最后以结论和建议收尾。大体步骤如下图所示:

一、提出问题

1.明确问题可以为之后的分析提供目标,避免迷失方向、自乱阵脚。在问题提出之前,须得清楚电商行业的业务指标。

image

2. 数据分析框架以及业务问题

婴儿用品分析思路

这次分析的指标主要是会员指标,包括性别比例、年龄分布、购买力、和用户数量增长率等,其目的是根据提供的用户信息(性别、年龄等)预测其购买需求(这里的用户特指0~11岁婴孩,下同)。

业务问题即上图所列:

  • 问题一:用户的性别比例与年龄分布?

  • 问题二:哪一类用户的购买力较强、市场较大?

  • 问题三:不同年龄阶段购买量排名前三的商品类别分别是哪些?

二、理解数据

1.数据采集

这次分析我使用的是从国内数据竞赛平台——阿里云天池——获取的电商母婴用品交易信息数据

数据来源地址:https://tianchi.aliyun.com/dataset/

2.数据信息

(1)该数据集包含超过九百万条的母婴用品销售历史数据,其中有两个工作表。其一是销售信息,共29972行,7列数据;其二是用户提供的儿童信息,共954行,3列数据。

(2)数据集中各个字段的业务含义:

表一中含有7个字段,分别为:user id: 用户名,auction id: 商品编码,cat id:商品品类编码,cat1:原商品品类编码,property: 相应商品属性,buy mount: 购买量,day: 购买时间。

image

表二中含有3个字段,分别为:user id: 用户名,birthday: 儿童出生日期,gender: 儿童性别(“0”代表女孩,“1”代表男孩,“2”代表不知道)。

image

三、 数据清洗

详细清洗结果如下:*https://shexiaobin.github.io/2019/09/03/

四、构建模型

数据清洗已完成,接下来就是构建模型和数据可视化。构建模型可以理解为通过数据透视表为解决业务问题提供更有效的数据支持,而可视化是在模型构建完成的基础上,设计相关图形图表展示分析结果。

分析方法:三维分析之时间-对象-指标。

1. 用户的性别比例、不同性别用户的购买力对比和增长率

(1)建立数据透视表,行标签中,0代表“女孩”,“1”代表男孩;列标签为购买年份。

用户性别比例——汇总方式为“计数”,数据显示方式为“总计的百分比”:

image

不同性别购买力对比——汇总方式为“求和”,数据显示方式为“总计的百分比”:

image

可视化结果:

image

  • 淘宝母婴产品用户中,女孩占据52%,比男孩多4%;与此同时,女孩用户的购买力比男孩高出18%。

image

​ ** 不同性别的用户数量及其购买量增长率**

  • 从2013年到2014年,女用户数量增长率高达49%,比男用户高13%;与此同时,女用户购买量增长率为35%,比男用户高6%。果然连购买力都从娃娃抓起,总的来说,在淘宝母婴产品中,女孩市场要大于男孩市场。

2.用户年龄分布、不同年龄阶段的用户数量增长情况和购买力对比

(1)建立数据透视表

用户年龄分布——年龄区间分为0~2、3~5、6~8、9~11,汇总方式为“计数”:

image

不同年龄阶段的购买量对比——汇总方式为“求和”:

image

可视化结果:

image

  • 两年中,0~2岁年龄段的用户最多,3~5岁其次,9~11岁年龄段的用户最少;随着时间的推移,每个年龄段的用户数量都在增长,其中0~2岁增长最为显著。
  • 可能存在提供6~11岁儿童信息的父母的数量较少。

image

就这份数据来看,在这两年期间,0~2岁年龄段的用户购买力最大,3~5次之,9~11年龄段的用户购买力最小。

3. 不同年龄阶段购买量排名前三的商品类别分别是哪些?

(1)建立数据透视表

总购买量排名前十的商品品类——已按照总购买量进行降序处理:

image

可视化结果:

image

总体来说,用户购买量最大的商品品类为50018831,而编码为50013636的品类的购买量排名第二。

image

  • 由表格可知,对于0~2年龄段的用户来说,最受欢迎的商品品类为50012456,其总购买量为42;最受3~5年龄段的用户欢迎的商品品类为50013636,其总购买量为19;

  • 作为用户购买量最大的商品品类,50018831同时且仅出现在0~2和3~5年龄段购买量排名前三的品类中,说明这一品类是这两个年龄段用户同时需要且较受欢迎的;

  • 而作为用户购买量排名第二的50013636,在后三个年龄段里购买量的排名皆是第一,说明这一品类对于3~11岁儿童是最有吸引力的。

五、结论与建议

1.2013年~2014年的淘宝母婴产品用户中,女孩所占比例较大,用户数量增长率较高,所对应的购买力也较强;从总体上来讲,女孩市场要大于男孩市场;

2.所有年龄段的用户数量都在随时间而增长,其中0~2岁阶段的用户最多,且数量增长最为显著;相应地,这一阶段用户的购买力最大;

3.在母婴用品中,总购买量最大的商品类别为50018831,而这一类别只有0~2和3~5这两个年龄段的用户需要;因此不需要向6岁以上的用户推荐该类别的产品;

4.总购买量排名第二的50013636这一类别最受3~11岁用户的欢迎,因此,对于0~2岁年龄的用户,在其年龄增长后,该类别会成为其购买需求,可在适当的时间于首页向其作专门活动推荐。

六 、PPT报告

image

image

image

image

image

image

image

image

image

image

image