我是一个数据从业者,很早以前就想把自己在工作和学习中的心得做个总结。一方面是对自己过往经历的一个总结和回顾;一方面最近几年大数据是越来越火了,也希望自己的经验能帮到那些对数据有热情、希望从事数据行业的新人们;还有一方面,也非常重要,是希望借助知乎这个平台跟广大同行们做一个交流,互相帮助,共同成长。
在开写之前,先做下自我介绍。我在企业里从事数据相关的工作已经有11年了,在这些年里,我做过咨询顾问、数据分析师、售前工程师、开发工程师、数据分析经理直至总监。在管理岗上,我带过数据分析、数据挖掘、数据产品、数据仓库等各种团队,其中带数据分析团队时间是最长的。先后就职于国企、传统制造业和互联网企业。总的来说,比较杂。现在想来其实有得有失。缺失的是,在任何一个细分领域上都没有做得特别深入,不算是一个合格的专家;得到更多的是,我对整个数据的产生、处理、分析直至为企业提供价值的过程都有过体会和思考,从而也使我能够站在一个更高的角度上看问题。到底是成为一个专才好还是通才好,我觉得这没有一个确定的答案。个人觉得T型人才是比较受欢迎的,也就是自己的技能和业务面同时要有宽度和深度。当然,到底多宽或多深才合适,取决于个人的职业发展意向。基于我的经验,我分享的更多是对这个行业的理解、做事情的思想和方法论,而不会侧重于具体的实现技术。想学技术的同学请绕行。
后面我预计要分享的内容包括数据分析、产品、仓库、数据团队建设等等。个人经验最多的是数据分析,就从这里开始吧。可能包括以下话题:
什么是数据分析?
数据分析有哪些分类?
如何设定分析目标?
怎样才算是一个合格的数据分析师?
什么样的企业需要数据分析师?
怎样建立一个数据分析师团队?
数据分析师团队的价值是什么?如何实现?
数据分析师团队的岗位设置及分工合作
一篇好的分析报告有什么样的标准?
什么是数据分析一句话定义,数据分析是一个从数据中通过分析手段发现业务价值的过程。这个过程的起点是获取一份数据,这个过程的终点是发现业务价值。过程可以大致为分数据获取——数据清洗——数据处理——数据建模——分析结果呈现——业务价值发现——业务价值实现这几个阶段。
在具体说明每个阶段之前,首先要谈下我对数据和业务价值这两个概念的理解。
数据:我认为数据不是简单的数字,换句话说,如果你只告诉我一串数字、、而没有其他信息,那么这几个数字就仅仅是数字而已,而不是数据。数据除了数字本身之外,还必须包含数字的来源、度量方式、单位、代表的业务场景(即数据产生的上下文环境)等等。其中,我认为场景是最重要的。仍旧拿上面的例子来说,如果你告诉这是三个地区的平均身高,那可以说这是一组有意义的数据了,至于单位,我会猜到是厘米;而来源和度量方式决定了这个数据的可信程度。业务价值:不能服务于业务的数据分析是没有生命力的,不能产生业务价值的数据分析是徒劳无功的。因此,能否实现业务价值决定了这是否是一次成功的数据分析。而分析工作只是实现了这个过程的第一步,它通过分析师的视角将价值呈现于业务人员面前,分析的结果只有被业务人员理解,并最终通过业务人员的努力转化为业务实施(在大多数公司数据分析和业务运营这两种不同的角色会分属不同的部门,增长黑客则是一种新的形式),才可能最终实现价值。过程的详细说明:
数据获取:这个阶段的输入需要一个分析目标,哪怕不是那么的明确和清晰。为什么需要一个目标?在一个大型企业中,可以获取的数据往往是海量,如果没有一个目标限制,那数据分析往往是无从着手的。这个阶段的输出是一个数据子集,它可以是物理上的或逻辑上的。所谓物理上的,就是把分析中用到的数据单独拷贝到一个地方;而逻辑上就只是定义出可用的数据范围,比如时间周期、维度、指标等。这个阶段的困难之处在于理解相关的数据源,因为数据源文档不完整或者变更的情况经常在业务中发生。数据清洗:通常包括异常数据的处理、缺失数据的处理、数据的一致性变换、编码的替换等数据处理:对数据进行汇总,或者形式上的变换,以便可以适用于后期的建模数据建模:用统计分析或机器学习算法对数据建模,以便描述数据或对未来进行预测。其实大多数分析师在这个阶段只观测数据的同比、环比的趋势上的变化,亦或对指标在不同维度上进行拆分,以观察维度对指标变化的影响。以上三个阶段在很多书籍中都有具体的技术描述,不再赘述。分析结果呈现:通常认为,这个阶段的主要任务是把建模的结果以图、表或者更加复杂的可视化方式呈现出来。但我认为不止于此。首先,呈现结果不是这个阶段的目的,目的应该是让业务人员对分析结果有充分的理解。其次,呈现的手段除了可视化,最重要的应该是沟通。而沟通是双向的,可以保证结果最大程度上被他人理解。业务价值发现:通常数据分析师会在分析结果中提出对业务的价值,但是这个价值只有被业务人员认可才有可能实现。所以,此处的“发现”应该是分析师和业务人员的“共同认知”。业务价值实现:业务价值发现和实现经常不被包含在数据分析过程中。但是,就如同我对数据分析的定义,业务价值才是数据分析的终极目的。因此,我认为价值的实现才是整个过程的最后一个阶段,这个阶段虽然是有业务人员控制的,但是仍然需要分析师的深度参与。因为双方对于分析结果的理解和价值的发现经常出现偏差,需要在实践中逐步达到统一。最后,关于数据分析过程,我认为有几点需要给予非常的重视:在开始做分析之前,首先要有分析目标!分析目标!分析目标!重要的事情说三遍。
过程不是单向的,在后一个阶段中发现问题时可以跳回到前一阶段过程不是一次性,而是不断循环往复的。上一次分析过程的终点,可能是下一次分析过程的起点。我们经常会在业务价值发现和实现阶段发现新的分析主题,并把它作为下一次分析的起点。对于任何一次分析来讲,不是每个阶段都是必需的整个过程中的大多数时间都需要分析师和业务人员的密切合作数据分析有哪些分类面对的问题不同:战略、运营战略分析:是为了解决公司战略方向问题,回答要向哪里去的问题。
此类分析通常比较宏观,需要分析者有大局观、有战略思维;所用的数据除了公司内部的数据,还需要竞品数据、行业数据。战略分析的方法:需要从竞品及行业数据中发现行业发展趋势及竞品的战略定位,同时结合公司内部数据,可以发现相对于行业和竞品发展,内部在哪些地方存在不足,以此制定进攻和防守策略运营分析:不同于战略分析,运营分析以解决实际运营问题为目标,比较微观。
需要分析者对公司业务模式、运营细节有深入的了解;使用的数据以公司内部数据为主。此类分析最重要的是,分析结果要能够与运营结合,并能有效落地服务的部门不同:业务、数据业务分析:此类分析由业务部门发起,提交给分析师执行,最终结果交付给业务部门。此类分析一般在最终的价值发现环节效率较高,问题的针对性较强。数据分析:此类分析由数据部门发起,最终结果视具体情况可能提高给业务部门或者管理层。由于此类分析的视角不同于业务分析,在最终的价值发现和实现环节需要与业务部门的深入沟通。同时,也正是由于视角不同,会经常发现业务部门没有发现或者忽视的问题。分析的范围不同:行业、公司、部门、业务环节行业分析:目的是总结和预测整个行业的过去和未来的发展趋势,时间窗口一般在1年以上。使用场景较多的是在投资公司中或者很多公司的市场宣传稿中会出现。行业分析的对象是商业模式或者业务形态,