写给新⼿⼩⽩的数据分析⼊门指南,从思维、⽅法到实践
从我的数据分析课程开讲以来,收到了不少朋友的问题:我是做运营的想⼊门数据分析应该怎
么学?新⼿做数据分析有哪些好⽤的⼯具?会⽤Excel但是做分析总是没思路怎么办?做数据分
析有哪些⽅法......等等⼀系列的问题,今天我就⽤这篇⽂章统⼀回答关于数据分析⼊门的问题
数据分析是什么?
很多⼈都没有搞懂数据分析是什么,包括⼀些公司和企业也没搞清楚数据分析的定义。经常听
到有⼈说投了数据分析的岗位,结果⼊职之后每天⼲的活就是取数给业务⽤,感觉⾃⼰就像个
取数机。这样的⼯作根本不能叫做数据分析。
什么是数据分析,⽤我⾃⼰的话来说就是针对某个问题,将获取后的数据⽤分析⼿段加以处
理,并发现业务价值的过程。这⼀句话也基本涵盖了数据分析的流程:⽬标确定——数据获
取、清洗、整理——数据分析——结果呈现
数据分析需要哪些能⼒
数据分析师需要会哪些技能,围绕上⾯数据分析的基本流程,我把数据分析师的能⼒分为这样
三⼤部分:基础知识、⼯具技能、分析⽅法与思维,以下师数据分析的技能⼤纲,图中标记了
能⼒等级,⼤家根据⾃⼰的情况对应学习
数据分析基础知识
数据分析理论知识这⽅⾯,需要掌握是统计学和机器学习相关知识。
1、统计学
毫不夸张的说统计学是整个数据分析的灵魂。判别⼀个数据分析师强弱的⼀个重要⽅法就是,
看他对统计规律的敏感度。这⾥我们需要从基础的统计理论(描述性统计、区间估计、假设检验
等)出发,到基本的统计分析(T 检验、⽅差分析等),最后到商业常⽤的模型(回归分析、⽅
差分析等),学习数据分析背后的逻辑,掌握实⽤统计学的概念和会利⽤统计的思维去思考问
题。
推荐书籍:《深⼊浅出数据分析》、《统计学习⽅法》李航
《深⼊浅出数据分析》这本书⾮常推荐作为⼩⽩的⼊门书籍,特别是之前没有接触过数据分析
的。特点和书名⼀样深⼊浅出,⽽且图多。⾥⾯没有那么多公式和理论,但其中对于统计的基
本原理以及统计问题的来源场景介绍的⾮常通透,⾮常符合深⼊浅出系列定位。如果有之前有
⼀定基础,建议略过。
2、机器学习
对于想要进阶成为⾼级数据分析师的朋友来说,就要掌握机器学习相关的知识:
特征⼯程的基础:如何统计数据特征、选⽤不同的特征,做模型的优化;
基本的分类算法:决策树、随机森林等;
基本的聚类算法、数据挖掘、常见的机器学习算法的了解等等
怎么做数据分析
机器学习相关的知识学习成本会⽐较⾼,对某些同学来说可能会有⼀定难度,但对于业务型数
据分析师来说,⼀般不会要求你去推导算法公式,能做到明⽩不同算法的适⽤场景、优缺点、
原理⼤概懂就基本可以了。
推荐学习书籍:《机器学习》周志华,⽹上也有不少学习视频,⼊门的话我推荐吴恩达的coursera机器学习课,
数据分析⼯具学习
1、PPT
为什么把PPT放在第⼀,原因很简单,我们做数据分析的⽬的是什么?当然是为了展⽰给客户、上级,供他们做决策。所以PPT作为主流汇报、展⽰⼯具,是将分析关键结果传递给其他的重要⼿段。学好PPT可以提升沟通和消息传递效率,也是数据分析师必备的技能,具体学习书⽬我就不做推荐了。
2、EXCEL
EXCEL应该是数据分析师最常⽤的统计分析⼯具了,原因是因为⽅便,所见即所得,⽽且具有⽅便的可视化功能。应该说只有学会了Vlookup,数据透视和基本公式才算EXCEL⼊门,其次EXCEL最⼤的惊喜是数据可视化,拥有⼤量的图表模板,可以减轻我们很多⼯作。
这⾥我推荐《谁说菜鸟不会数据分析》这本书作为EXCEL⼊门。这本书如果作为数据分析⼊门书籍是不合格的,因为它有太多内容是关于EXCEL基本操作的,关于数据分析的内容反⽽很少,但是实事求是的讲这本书⾥⾯关于EXCEL数据分析常⽤公式、数据可视化的内容还是不错的,可以当成⼀本⼊门书籍。
3、ACCESS
为什么把ACCESS作为中级数据分析师必备技能,原因很简单,当数据太⼤,EXCEL⼜处理不了,⼜没有很强的编程基础怎么办?ACCESS的优势就体现出来了,它可以在不⽤掌握很⾼深编程语⾔的条件下,处理Excel所不能承载的⼤存储量的数据原始⽂件,速度奇快,且易学易⽤。
作为⼊门,我推荐《表哥的Access⼊门》这本书。通过⼀个简单的⼩饭馆数据库管理程序的开发过程,对理解数据库和学习⼀些基本的ACCESS很有帮助。
4、SQL
作为数据分析⼈员,要想获取数据,肯定就要和数据库打交道,因此sql肯定是要掌握的,在招聘要求中,sql也是很多数据分析岗位的能⼒要求之⼀。学习SQL最快的⽅法是能⾃⼰下载数据库管理⼯具,些数据练习,主要了解⼀些数据库查询语⾔,where,group
by,orderby,having,like,count,sum,min,max,distinct,if,join,left join,limit,and 和or的逻辑,时间转换函数等。
推荐书籍:《MYSQL必知必会》
5、Python
Python作为⽬前最⽕的编程软件之⼀,确实在数据分析、数据挖掘上有着独特优势。是否具备编程能⼒,也是初级数据分析和⾼级数据分析的分⽔岭。以下以python的学习路线图:
看起来要学习的内容挺多的,但其实python最⼤的优势就是语⾔简约,⾮常易于读写,如果之前有⼀定的编程基础,上⼿很快。推荐书籍《Python编程快速上⼿》,新⼿可以跟着书⾥的内容⼀步步做,把⾥⾯的项⽬做完,差不多就⼊门了
6、商业数据分析软件
excel做数据分析难以解决⼤数据量的问题,对没有编程基础的⼈来说上⼿python⼜⽐较难,这时候可以选择利⽤数据分析软件来做数据分析,现在市场上的数据分析软件基本都涵盖来数据采集、处理、分析到可视化展现的过程,操作简单,可视化效果很棒,⽐较适合新⼿⼊门。⽐较好⽤的有FineBI、tableau 等等
数据分析⽅法
学习数据分析肯定有⼈上⽹百度了不少数据分析⽅法,什么漏⽃分析法,PEST,SWOT模型、杜邦分析法等等。并且由于不同版本的演绎,造成了分析⽅法种类繁多,令⼈眼花缭乱,关于分析⽅法值得⼀说的就是⼀定要结合⾏业特点,特别是对业务的掌握,这样才能事半功倍。下⾯简单列⼏个⽐较通⽤的分析⽅法:
1、对⽐分析法
对⽐分析法常⽤的基础分析⽅法,虽然⽅法特别简单,但⼏乎所有的分析报告中,都会采取对⽐分析⽅法。⽐如去年同期相⽐、上个⽉环⽐、⽬标和实际达成相⽐、各个部门和业务线相⽐、⾏业内竞品⽐较、营销效果对⽐,等等。这⾥需要注意的是我们不管是横向⽐较还是纵向⽐较,⽐较的双⽅⼀定要有可⽐性,并且在同⼀个维度、粒度上去⽐较,要不是毫⽆意义的。
2、5W2H分析法
这个⽅法主要应⽤于⽤户⾏为研究和专项问题分析,从时间、地点、⼈物、事情、原因、⽅式、价格等7个⽅⾯对⼀个问题进⾏刻画研究。
3、SWOT
明确资源优势(Strengths)、竞争劣势(Weaknesses)、外部环境变化带来的机会(Opportunities)和威胁(Threats)等,将这些因素有机结合起来,以此确定企业经营战略。
4、PEST
从政治(Politics)、经济(Economics)、社会(Society)、技术(Technology)4个视⾓分析外部环境。
5、杜邦分析法
杜邦分析法是⼀种⽤来评价公司盈利能⼒和股东权益回报⽔平,从财务⾓度评价企业绩效的⼀种经典⽅法。其基本思想是将企业净资产收益率逐级分解为多项财务⽐率乘积,这样有助于深⼊分析⽐较企业经营业绩。
数据分析思维
分析思维是数据分析师最最核⼼的竞争⼒,上⾯所学习的python、sql、机器学习知识等都是在⼯具层⾯,要想使⽤好他们,还需要分析思维的驾驭。对于分析思维的学习,我建议新⼈也是从读书开始,我看过的且⽐较推荐的书包括:
数据分析类
《精益数据分析》、《增长⿊客》、《数据化管理:洞悉零售及电⼦商务运营》、《数据挖掘与数据化运营实战思路、⽅法、技巧与应⽤》
产品思维类,如果是想要从事互联⽹⾏业的数据分析师的话,产品思维也是必须要具备的,⾯试考察点之⼀
《从点⼦到产品:产品经理的价值观与⽅法论》、《俞军产品⽅法论》、《产品思维》
逻辑思维类:在⾯试中逻辑清晰的回答⾯试官的问题,会为你⼤⼤的加分
《⾦字塔原理》、《学会提问》、《麦肯锡思维》
数据来源
数据是数据分析的基础,所以获取⼤⽽全的数据就⾄关重要,以下是我经常获取数据的⼏个渠道:
3、中国信通院:中国信息通信研究院,针对互联⽹多个⾏业的发展趋势,会有很多⾏业⽩⽪书发布,研究内容较为前沿。
5、⽹易、新浪等门户⽹站。这些⽹站的数据较为分散,需要进⾏整合,最好的⽅式就是配合爬⾍筛选⾃⼰想要的数据。