Jimmy那些事儿

数据分析_发展历史

数据分析的发展历史


数据分析

基本概念

大师、企业家、权威机构;

求同,取精


驱动因素

为什么产生、为什么受到关注、为什么变得流行


发展阶段

特征、代表性观点/事件/人物、时间点


构成要素

模块、方面组成


模式类别

特点、典型代表、优劣势、适用情况

优劣势 & 适用情况 很重要;一则可以是具体的工作与场景,二则可以是不同的企业/行业发展阶段


最佳实践

分模块 或者 分模式

数据只有结合了业务才是有价值的,数据体现可以用四个字词概括,看数据、用数据、依赖数据、数据变现

http://www.afenxi.com/post/39570

  1. 看数据, 能然让业务准确、及时、完整的看到数据, 落地是在报表、取数等;
  2. 用数据, 业务上通过数据做出决策 ,落地是异常监控/专题分析;
  3. 依赖数据,数据嵌入到业务的日常流程中,通过数据挖掘高价值信息推进业务,落地点在数据产品,数据挖掘产品;
  4. 数据变现,利用数据来赚钱了,落地点可在外部数据平台,数据产品上;

在这整个环节中”数据分析师“是做什么呢?我们从分析师的日常工作来分析看,临时需求、报表、数据分析与模型、数据产品,数据挖掘这几个角度来聊一下;

临时需求,就是解决业务的一次性,临时的数据需求;报表,是根据业务的需要,对于常规且定期查看与分析的数据,形成report;

数据分析与模型,与业务一起沟通,分析业务上的各种问题,提供一些业务上的建议与取舍,根据业务需要搞一些挖掘模型等;

数据产品,是通过可视化的方式解决一些结构化(固化)业务问题;把数据分析模型、分析思路与数据结合、面向定向业务提供分析产品;

数据挖掘,数据直接作用到业务上,比如作弊用户、标签推荐、用户行为的定向引导;


导入方法

工作 & 成果

数据人就要考虑在当前的业务状态中,该如何考虑对业务做到帮助与支持,或者是做数据的的人必须深入到业务中,如何深入呢,或者说是消息一定要灵通;

1、要与各种boss 1vs1 了解他们的想法。

2、参与到管理层的会议中,可以不用发言,但是要一定了解公司的管理层的理念、思路与战略、甚至是feature 的发布;

3、多的时数据人应该与运营在一起、一些活动、一些运营数据分析师也要参与进去也要尝试去一起做一下;

4、参与到公司的日常产品设计中去,在产品的立项阶段就去尝试获取信息;


数据挖掘

资料来源:《数据挖掘与数据化运营实战》 - 卢辉 ;http://www.chforce.com/books/datamining-om-by-data/index.html

基本概念

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等。

数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术


驱动因素


发展阶段

数据挖掘起始于20世纪下半叶,是在当时多个学科发展的基础上发展起来的。随着数据库技术的发展应用,数据的积累不断膨胀,导致简单的查询和统计已经无法满足企业的商业需求,急需一些革命性的技术去挖掘数据背后的信息。同时,这期间计算机领域的人工智能(Artificial Intelligence)也取得了巨大进展,进入了机器学习的阶段。因此,人们将两者结合起来,用数据库管理系统存储数据,用计算机分析数据,并且尝试挖掘数据背后的信息。这两者的结合促生了一门新的学科,即数据库中的知识发现(Knowledge Discovery in Databases,KDD)。1989年8月召开的第11届国际人工智能联合会议的专题讨论会上首次出现了知识发现(KDD)这个术语,到目前为止,KDD的重点已经从发现方法转向了实践应用。

数据挖掘(Data Mining)则是知识发现(KDD)的核心部分,它指的是从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。


构成要素

模块、方面组成

数据挖掘融合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术


统计分析 VS. 数据挖掘

应用过程

  • 统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性
  • 在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。


侧重点 - 解释 VS. 预测

  • 统计分析在预测中的应用常表现为一个或一组函数关系式 (易于解释)
  • 数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。 (也无需知道)
    • 最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。


结合应用

针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。


模式类别

特点、典型代表、优劣势、适用情况

优劣势 & 适用情况 很重要;一则可以是具体的工作与场景,二则可以是不同的企业/行业发展阶段


决策树

  1. 概念:建模过程类似一棵树的成长过程,即从根部开始,到树干,到分枝,再到细枝末节的分叉,最终生长出一片片的树叶。在决策树里,所分析的数据样本先是集成为一个树根,然后经过层层分枝,最终形成若干个结点,每个结点代表一个结论。
  2. 优势:易解释、高容错性
    • 它所产生的一系列从树根到树枝(或树叶)的规则,可以很容易地被分析师和业务人员理解,而且这些典型的规则甚至不用整理(或稍加整理),就是现成的可以应用的业务优化策略和业务优化路径。
    • 决策树技术对数据的分布甚至缺失非常宽容,不容易受到极值的影响。
  3. 应用:分类、预测
    • 作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。


神经网络

  1. 概念:“神经网络” 就是通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中,隐蔽层所包含的就是非线性函数。
    • 目前最主流的“神经网络”算法是反馈传播(Backpropagation),该算法在多层前向型(Multilayer Feed-Forward)神经网络上进行学习,而多层前向型神经网络又是由一个输入层、一个或多个隐蔽层以及一个输出层组成的
  2. 优势:自适应性、自组织性、高容错性
    • 拥有特有的大规模并行结构和信息的并行处理等特点,因此它具有良好的自适应性、自组织性和高容错性,并且具有较强的学习、记忆和识别功能。
  3. 劣势:不可解释性
    • 知识和结果的不可解释性,没有人知道隐蔽层里的非线性函数到底是如何处理自变量的
  4. 应用:分类、预测
    • 在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。
  5. 模型的重要因素:
    • 层数
    • 每层中输入变量的数量
    • 联系的种类
    • 联系的程度
    • 转换函数,又称激活函数或挤压函数


回归

  1. 概念:回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归逻辑斯蒂回归(Logistic Regression)。

  2. 多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量与自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。

    • 用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小
    • 主要假设:
      • 输入变量是确定的变量,不是随机变量,而且输入的变量间无线性相关,即无共线性
      • 随机误差的期望值总和为零,即随机误差与自变量不相关
      • 随机误差呈现正态分布
  3. 逻辑斯蒂回归,它又包括响应预测、分类划分等。凡是预测“两选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以采用逻辑斯蒂回归方程。

    • 因变量是介于0和1之间的概率
    • 最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小,估值方差小。


关联规则

  1. 概念:关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。

    • 应用关联规则最经典的案例就是购物篮分析(Basket Analysis),通过分析顾客购物篮中商品之间的关联,可以挖掘顾客的购物习惯,从而帮助零售商更好地制定有针对性的营销策略。
    • 支持度(Support)和置信度(Confidence)是衡量关联规则强度的两个重要指标,它们分别反映着所发现规则的有用性和确定性。
      • 支持度:规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有用性,如果支持度太小,则说明相应规则只是偶发事件。在商业实战中,偶发事件很可能没有商业价值;
      • 置信度:规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比。置信度主要衡量规则的确定性(可预测性),如果置信度太低,那么从X就很难可靠地推断出Y来

    婴儿尿不湿→啤酒[支持度=10%,置信度=70%]

    这个规则表明,在所有顾客中,有10%的顾客同时购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,占70%的人同时还购买了啤酒。发现这个关联规则后,超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销,结果明显提升了销售额,这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。

  2. 主要算法:Apriori

    • (1)生成所有的频繁项目集。一个频繁项目集(Frequent Itemset)是一个支持度高于最小支持度阀值(min-sup)的项目集。
    • (2)从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值(min-conf)的规则。
  3. 应用:比如发现单词间的并发关系以及Web的使用模式

    • 不但在数值型数据集的分析中有很大用途,而且在纯文本文档和网页文件中,也有着重要用途。


聚类

  1. 概念:针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。

  2. 方法:算法可以分为划分的方法(Partitioning Method)、层次的方法(Hierarchical Method)、基于密度的方法(Density-based Method)、基于网格的方法(Grid-based Method)、基于模型的方法(Model-based Method)等,其中,前面两种方法最为常用。

    • 划分的方法(Partitioning Method),当给定m个对象的数据集,以及希望生成的细分群体数量K后,即可采用这种方法将这些对象分成K组(K≤m),使得每个组内对象是相似的,而组间的对象是相异的。
      • 常用的划分方法是K-Means方法,其具体原理是:首先,随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值或初始的组中心值;对剩余的每个对象,根据其与各个组初始均值的距离,将它们分配给最近的(最相似)小组;然后,重新计算每个小组新的均值;这个过程不断重复,直到所有的对象在K组分布中都找到离自己最近的组。
    • 层次的方法(Hierarchical Method)则是指依次让最相似的数据对象两两合并,这样不断地合并,最后就形成了一棵聚类树。
  3. 应用:既可以直接作为模型对观察对象进行群体划分(为业务方的精细化运营提供具体的细分依据和相应的运营方案建议);又可在数据处理阶段用作数据探索的工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系等。


贝叶斯方法

  1. 概念:贝叶斯分类方法(Bayesian Classifier)是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的,已经有研究表明,朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。

    $$P(H|X) = {P(H|X)P(X) \over P(X)}$$

    • 其中,X表示n个属性的测量描述;H为某种假设,比如假设某观察值X属于某个特定的类别C;对于分类问题,希望确定P(H|X),即能通过给定的X的测量描述,来得到H成立的概率,也就是给出X的属性值,计算出该观察值属于类别C的概率。因为P(H|X)是后验概率(Posterior Probability),所以又称其为在条件X下,H的后验概率。

    举例来说,假设数据属性仅限于用教育背景和收入来描述顾客,而X是一位硕士学历,收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机,则P(H|X)表示当我们知道顾客的教育背景和收入情况后,该顾客将购买苹果手机的概率;相反,P(X|H)则表示如果已知顾客购买苹果手机,则该顾客是硕士学历并且收入10万元的概率;而P(X)则是X的先验概率,表示顾客中的某个人属于硕士学历且收入10万元的概率;P(H)也是先验概率,只不过是任意给定顾客将购买苹果手机的概率,而不会去管他们的教育背景和收入情况。

    从上面的介绍可见,相比于先验概率P(H),后验概率P(H|X)基于了更多的信息(比如顾客的信息属性),而P(H)是独立于X的。

  2. 概念:朴素贝叶斯分类法(Naive Bayesian Classifier)。如果给定数据集里有M个分类类别,通过朴素贝叶斯分类法,可以预测给定观察值是否属于具有最高后验概率的特定类别,也就是说,朴素贝叶斯分类方法预测X属于类别Ci时,表示当且仅当

    $$P(C_i|X) > P(C_j|X) ; 1 \le j \le m, j \ne m$$

    此时如果最大化P(Ci|X),其P(Ci|X)最大的类Ci被称为最大后验假设,根据贝叶斯定理

    $$P(C_i|X) = { P(X|C_i)P(C_i) \over P(X)}$$

    可知,由于P(X)对于所有的类别是均等的,因此只需要P(X|Ci)P(Ci)取最大即可。为了预测一个未知样本X的类别,可对每个类别Ci估算相应的P(X|Ci)P(Ci)。样本X归属于类别Ci,当且仅当

    P(Ci|X)>P(Cj|X)1≤j≤m,j≠i

  3. 应用:分类


支持向量机

  1. 概念:支持向量机以结构风险最小为原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性的情况下,它使用一种非线性的映射,将原训练集数据映射到较高的维上。在新的维上,它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射,两类数据总可以被超平面分开。
    • 设给定的训练样本集为{(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈Rn,y∈{-1,1}。
    • 再假设该训练集可被一个超平面线性划分,设该超平面记为(w,x)+b=0。
  2. 距离超平面最近的一类向量被称为支持向量(Support Vector),一组支持向量可以唯一地确定一个超平面。通过学习算法,SVM可以自动寻找出那些对分类有较好区分能力的支持向量,由此构造出的分类器则可以最大化类与类的间隔
  3. 优势:较好的适应能力和较高的分类准确率。
  4. 应用:分类、预测


主成分分析

  1. 概念:主成分分析会通过线性组合将多个原始变量合并成若干个主成分,这样每个主成分都变成了原始变量的线性组合。
    • 这种转变的目的,一方面是可以大幅降低原始数据的维度,同时也在此过程中发现原始数据属性之间的关系。
  2. 步骤:
    • 1)通常要先进行各变量的标准化工作,标准化的目的是将数据按照比例进行缩放,使之落入一个小的区间范围之内,从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。
    • 2)选择协方差阵或者相关阵计算特征根及对应的特征向量。
    • 3)计算方差贡献率,并根据方差贡献率的阀值选取合适的主成分个数。
    • 4)根据主成分载荷的大小对选择的主成分进行命名。
    • 5)根据主成分载荷计算各个主成分的得分。
  3. 因子分析:将主成分进行推广和延伸即成为因子分析(Factor Analysis),因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中,每类变量即是一个因子。之所以称其为因子,是因为它们实际上是不可测量的,只能解释。
  4. 主分成分析 VS. 因子分析 (主成分分析是因子分析的一个特例)
    • 主成分分析会把主成分表示成各个原始变量的线性组合,而因子分析则把原始变量表示成各个因子的线性组合
    • 主成分分析的重点在于解释原始变量的总方差,而因子分析的重点在于解释原始变量的协方差
    • 在主成分分析中,有几个原始变量就有几个主成分,而在因子分析中,因子个数可以根据业务场景的需要人为指定,并且指定的因子数量不同,则分析结果也会有差异。
    • 在主成分分析中,给定的协方差矩阵或者相关矩阵的特征值是唯一时,主成分也是唯一的。但是在因子分析中,因子不是唯一的,并且通过旋转可以得到不同的因子。
  5. 应用:数据处理、降维、变量间关系的探索


假设检验

  1. 概念:假设检验的基本原理就是小概率事件原理,即观测小概率事件在假设成立的情况下是否发生。如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中,小概率事件没有发生,那么也只能说明没有足够理由相信假设是错误的,但是也并不能说明假设是正确的,因为无法收集到所有的证据来证明假设是正确的。
    • 假设检验的结论是在一定的显著性水平下得出的。因此,当采用此方法观测事件并下结论时,有可能会犯错,这些错误主要有两大类:
      • 第Ⅰ类错误:当原假设为真时,却否定它而犯的错误,即拒绝正确假设的错误。犯第Ⅰ类错误的概率记为α,通常也叫α错误,α=1-置信度。
      • 第Ⅱ类错误:当原假设为假时,却肯定它而犯的错误,即接受错误假设的错误。犯第Ⅱ类错误的概率记为β,通常也叫β错误。
    • 上述这两类错误在其他条件不变的情况下是相反的,即α增大时,β就减小;α减小时,β就增大。α错误容易受数据分析人员的控制,因此在假设检验中,通常会先控制第Ⅰ类错误发生的概率α,具体表现为:在做假设检验之前先指定一个α的具体数值,通常取0.05或0.01,也可以取0.1或0.001。
  2. 应用:运营效果的评估


大数据平台

基本概念

大师、企业家、权威机构;

求同,取精


驱动因素

为什么产生、为什么受到关注、为什么变得流行

数据产品的产生

​ 互联网企业随着数据更加逐渐被重视,分析师、数据开发在面对大量的数据需求、海量的临时需求疲惫不堪,变成了资源的瓶颈,在当时的状态传统的各类的Report、Olap 工具都无法满足互联网行业个性化的数据需求。开始考虑把需求固定化变为一个面向最终用户自助式、半自助的产品来满足快速获取数据&分析的结果,当总结出的指标、分析方法(模型)、使用流程与工具有机的结合在一起时数据产品就诞生了。

​ 数据产品按照面向的功能与业务可以划分为面向平台级别的工具型产品、面向用户端的业务级数据产品。

​ 按照用户分类可以分为面向内部用户数据产品,面向外部用户个人数据产品、商户(企业)数据产品。
​ 面向平台级别有数据质量、元数据、调度、资管配置、数据同步分发等等。


发展阶段

特征、代表性观点/事件/人物、时间点

非互联网时代

自从数据仓库发展起来到现在,基本上可以分为五个时代、四种架构

  1. 约在1991年前的全企业集成
  2. 1991年后的企业数据集成EDW时代
  3. 1994年-1996年的数据集市
  4. 1996-1997年左右的两个架构吵架
  5. 1998年-2001年左右的合并年代

五个时代划分是以重要事件或代表人物为标志:

  1. 企业数据集成EDW时代其重要代表人物是Bill Inmon 代表作数据仓库一书,更重要是他提出了如何建设数据仓库的指导性意见与原则。他遵循的是自上而下的建设原则,这个导致后来数据仓库在千禧年传到中国后的几年内,几个大实施厂商都是遵守该原则的实施方法,后来的数据仓库之路等各种专业论坛上针对数据仓库ODS-EDW的结构讨论
  2. 数据集市年代其代表人物是Ralph kilmball,他的代表作是”The Data Warehouse Toolkit“,在数据仓库的建设上Ralph kilmball 提出的是自下而上的建设方法,刚好与Bill Innmon的建设方法相反,这两种架构方式各有千秋,所以就进入了争吵时代。
  3. Bill Inmon 提出的CIF(corporation information factory) 架构模式、这也算是数据仓库的第三代架构,其架构特点是把整个架构划分为不同层次,把每一层次的定义与功能都详细的描述下来,从04年后国内的很多数据仓库架构、甚至互联网刚开始搞数据平台数据仓库架构模式也是这一种。


ETL 代指数据从不同源到数据平台的整个过程,ETL Mapping 可理解为 数据加工算法,


互联网时代

数据源:多样化

​ 做数据的人,从非互联网进入到互联网最显著的特点是面对的数据源类型忽然多了起来,在传统企业数据人员面对的是结构化存储数据,基本来自excel、表格、DB系统等,在数据的处理技术上与架构上是非常容易总结的,但是在互联网因为业务独特性导致了所接触到的数据源特性多样化,网站点击日志、视频、音频、图片数据等很多非结构化快速产生与保存

​ 目前最火热的移动互联网,大家都在通过自己的手机、平板去访问网站、购物等所以每个人都是数据的生产者,移动用户在使用习惯上呈现移动化、碎片化,以至于业务特性、商业模式比传统互联网又有显著差别, 用户在不同位置需求是不同的、使用APP 也是不同的、手机终端类型也是多样化。这些差异性比较导致移动互联网的数据与传统的互联网时代又产生显著差异性。

例如买家通过Pc购物从浏览物品到支付可能在很短时间内完成,但是通过手购物碎片化就显得多一些,可能在某个空余时间浏览物品,保存或放入购物车,等有时间在去做支付。大约在2009年到2012年之间做用户行为分析感觉很多原有网页端拍下物品去支付,逐渐转为PC端下单通过移动端支付。

表 - 不同时代数据源的对比

行业域 非互联网 互联网 移动互联网
数据来源(相对于数据平台来讲) 结构化各类数据库(DB系统)、结构化文本、Excel表格等,少量word Web、自定义、系统的日志,各类结构化DB数据、长文本、视频 主要是来自网页 除了互联网那些外还含有大量定位数据、自动化传感器、嵌入式设备、自动化设备等
数据包含信息 CRM客户信息、事务性 ERP/MRPII 数据、资金账务数据 等。 除了传统企业数据信息外,还含有用户各类点击日志、社交数据、多媒体、搜索、电邮数据等等 除了传统互联网的数据外,还含有Gps、穿戴设备、传感器各类采集数据、自动化传感器采集数据等等
数据结构特性 几乎都是结构化数据 非结构化数据居多 非结构化数据居多
数据存储/数据量 主要以DB结构化存储为主,从几百兆到 百G级别 文件形式、DB形式,流方式、 从TB 到PB 文件形式、流方式、DB范式,非结构化 从TB 到PB
产生周期 慢,几天甚至周为单位 秒或更小为单位 秒或更小为单位
对消费者行为采集与还原 粒度粗 粒度较细 粒度非常细
数据价值 长期有效 随着时间衰减 随着时间快速衰减
单位时间内数据聚合度 高度聚合 聚合度低 聚合度很低


数据平台的用户

  1. 阶段1:在2008年-2011年初。建设与使用上与非互联网数据平台有这蛮大的相似性,主要相似点在数据平台的建设角色、与使用到的技术上。

    • 老板们、运营的需求主要是依赖于报表、分析报告、临时需求、商业智能团队的数据分析师去各种分析、临时需求、挖掘,这些角色是数据平台的适用方。
    • ETL开发工程师、数据模型建模、数据架构师、报表设计人员 ,同时这些角色又是数据平台数据建设与使用方。
    • 数据平台的技术框架与工具实现主要有技术架构师、JAVA 开发等。
    • 用户面对是结构化的生产数据、PC端非结构化log等 数据。
    • ELT的数据处理方式(备注在数据处理的方式上,由传统企业的ETL 基本进化为ELT)。
  2. 阶段2:约在2011年到2014 年。数据产品的诞生。互联网的数据平台除了受到技术、数据量的驱动外,同时还来自数据产品经理梳理用户的需求按照产品的思维去构建并部署在了数据的平台上。随着数据平台的建设逐渐的进入快速迭代期,数据产品、数据产品经理这两个词逐渐的升温以及被广泛得到认可,同时数据产品也随着需求、平台特性分为面向用户级数据产品、面向平台工具型产品两个维度分别去建设数据平台。

    • 企业各个主要角色都是数据平台用户。
    • 各类数据产品经理(偏业务数据产品、偏工具平台数据产品)推进数据平台的建设。
    • 分析师参与数据平台直接建设比重增加。
    • 数据开发、数据模型角色都是数据平台的建设者与使用者(备注:相对与传统数据平台的数据开发来说,逐渐忽略了数据质量的关注度,数据模型设计角色逐渐被弱化)。
    • 用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据。
    • 原有ETL中部分数据转换功能逐渐前置化,放到业务系统端进行(备注:部分原有在ETL阶段需要数据标准化一些过程前置在业务系统数据产生阶段进行,比如Log 日志。 移动互联网的日志标准化。
  3. 阶段3:从经营、分析的诉求重点转为数据化的精细运营上,对数据的粒度要求由高汇总逐渐转为过程化细粒度明细数据。

    • 随着数据应用的深入,用数据往往不知道数据的口径与来源,加工数据的不知道业务含义,不同部门口径又是不一样,有的从交易来、有的从账务来。这里数据使用与数据加工上就出现了”断层”。有时在层级与功能部门前边也可能存在一个断层,对数据价值的内在衡量是不一样的,角色不一样,对于数据价值的的看法也就不同。
    • 用数据的一些角色(分析师、运营或产品)会自己参与到从数据整理、加工、分析阶段。
    • 当数据平台变为自由全开放,使用数据的人也参与到数据的体系建设时,基本会因为不专业型,导致数据质量问题、重复对分数据浪费存储与资源、口径多样化等等原因。此时原有建设数据平台的多个角色可能转为对其它非专业做数据人员的培训、咨询与落地写更加适合当前企业数据应用的一些方案等。
    • 给用户提供的各类丰富的分析、取数的产品,简单上手的可以使用。
    • 原有ETL、数据模型角色转为给用户提供平台、产品、数据培训与使用咨询。
    • 数据分析师直接参与到数据平台过程、数据产品的建设中去。
    • 用户面对是数据源多样化,比如日志、生产数据库的数据、视频、音频等非结构化数据。

    比如说她,是银行的一名普通职员,每天的任务是结算、结汇,从早到晚都在跟数据打交道;因为只用整理好的数据,所以自然不在乎也不注意,数据是如何来的;整个总结下来是,用数据的人不知道数据哪里来的,做数据的人不知道数据有什么用处;回忆了下,这还真是一个普遍的现象;


构成要素

模块、方面组成

数据模型

在互联网时代被弱化的数据模型

在传统数据平台要背后有一个完整数据仓库团队去服务业务方,业务方嗷嗷待哺的等待被动方式去满足。中低层数据基本不会对业务方开放,所以不管数据模型采用何种建模方式,主要满足当时数据架构规划即可。

互联网业务的快速发展使得大家已经从经营、分析的诉求重点转为数据化的精细运营上,如何做好精细化运营问题上来,当资源不够时用户就叫喊,甚至有的业务方会挽起袖子来自己参与到从数据整理、加工、分析阶段。


模式类别

特点、典型代表、优劣势、适用情况

优劣势 & 适用情况 很重要;一则可以是具体的工作与场景,二则可以是不同的企业/行业发展阶段


最佳实践

分模块 或者 分模式


导入方法

工作 & 成果


数据产品

基本概念

要想把数据产品定义清楚,要拆分成 “数据”、“产品” 两个维度来看。

“产品” 是一组将输入转化为输出的相互关联或相互作用的活动的结果,即“过程” 的结果“。在经济领域中,通常也可理解为组织制造的任何制品或制品的组合。产品的狭义概念:被生产出的物品;产品的广义概念:可以满足人们需求的载体。

互联网产品的概念是从传统意义上的“产品”延伸而来的,是在互联网领域中产出而用于经营的商品,它是满足互联网用户需求和欲望的无形载体。简单来说,互联网产品就是指网站为满足用户需求而创建的用于运营的功能及服务,它是网站功能与服务的集成。大家可以分析下百度、腾讯、新浪、优酷、谷歌、facebook 各自的“产品”是什么?

移动互联网产品又是什么呢?我是没有找到比较贴切的概念,只好依照自己简单的想象“已移动设别、网络为基础,构建满足人们的需求而创造出来的功能与服务”,例如基于手机、平板设备上的各种App,微信、手机百度、ingress手游、网易客户端等。

所谓的产品,简单讲就是满足人们某个需求、或解决某个问题的东西。


发展阶段

自1954年计算机用于工资处理以后,一直到2016年的今天,企业在信息化处理上得到了长足的发展。在这个发展中经历过了数据处理系统、Mis管理系统、决策支持、商业智能。


DSS决策支持

Dss决策支持系统是建立在对传统企业历史数据集成基础上的数据探索应用,自从数据仓库的出现给对企业的决策支持注入了新的活力,发展到现在的互联网、移动互联网对数据的应用又是一个崭新阶段。

20世纪60年到70年,决策中往往是需要查询多种异构数据源的业务系统、参考外部的数据,进行大量的数据分析后才能做出相关的决策来。

进入到20世纪80年代后,随着计算机技术发展、各类数据统计分析的工具逐步健全,尤其是数据仓库的技术发展给传统企业的决策支持系统带来了更大的便利性。传统企业更多的是围绕着日常经营去做经营分析,比如财务绩效状况、资产运营状况、偿债能力状况、发展能力状况等。


商业智能

商业智能(Business Intelligence,简称BI)的概念最早是Gartner Group 的 Howard Dresner在1996 年提出来,传到国内有将之翻译为”商业智能”或”商务智能”。商业智能的应用领域典型电信、银行、保险、零售等,所有建立了数据仓库的企业其商业智能建设的主要目标是企业决策支持。商业智能通过对信息技术的运用在不同层面为战略、决策提供新的支持:提升决策者洞察力以及支持信息获取与分析。

在传统企业的商业智能时代,我个人对其的认识是商业智能本来是把数据分析和统计运算的结果以多角度的方式存储,然后在OLAP、Report平台上形成一个个面向不同业务需要的数据集市以可视化的展现,让公司的管理层可以通过看及时和合适方式展示出来的信息来决策,让基层可以用统计运算后的数据进行经营分析与企业日常运作。

这种方式的核心是Bill Inmon 、Ralph Kimball的数据仓库Data Warehouse与Codd创造OLAP一词,E.F.Codd发明了在线分析处理(OLAP)一词,来表示多维分所结合的模式,为客户提供OLAP 平台,通过开发一些Report、Dashboard,后台通过ETL 自动刷新数据。 其中ETL工具在当时使用的是Datastage、Informatica、微软Dts或自己开发的脚本等系列来做数据的清洗、转换、加载,而OLAP 平台基本上为BO、Congos、Oracle 等几家的OLAP引擎与报表设计平台。在数据仓库 Data warehouse 中大家可以看到DW层为存储、管理数据设计的模型、数据集市中为 OLAP 而设计的模型。其中数据集市的数据就是数据仓库各层的数据Join与Aggregate的数据集合。

传统的数据团队的困惑在盲目的跟着需求开发,导致开发成果无法确认是否有用、够用,也无法避免无休止的需求变更,导致系统开发成本高、周期长、失败率居高不下。这样的数据平台最大的特点是庞大,初次使用感觉功能非常新鲜,但是在面对具体需求时使用起来难用,无法真正的解决问题。根本没有系统化、产品化,只是一堆数据的堆砌,僵死的报表或cube 开发、设计与开发与业务脱节非常严重,没有任何衔接可言。

——–分割线——–

随着时间的发展,业界听到的BI的声音越来越少了,反而是对探索数据的价值的数据分析、数据挖掘独立的声音出现,因为早期传统企业的BI在这件上非常吃力,在过去只是简单从不同角度的堆积数据看统计指标已经不适应决策要看原因,要看影响的程度,执行层面要根据数据分析、挖掘精确来执行。

  • 比如过去我们只是看商场的不同品牌的货物卖出多少,在现在要看商品在一天的那个时间段卖的好、摆放哪个位置卖的好、什么样的顾客容易买,客户总消费多少钱,客户订单次数,客户平均客单价、客户最近订单时间等等。

初BI刚进入企业眼前的时候,认为BI可以做很多厉害的事情,各种智能化。随着时间推移,BI从天上掉到了地下,90%多的企业只剩下数据集成和报表生成部门。目前一般企业普遍采用的办法是由业务部门提出分析需求,让BI部门统计和分析数据出结果,这样的组合看似合理,却有很多隐患。

  • 记得有家公司组建自己的BI团队前,曾经去寻找多家第三方企业来实BI,建立了数据模型和数据处理,交付物开发出各个业务线的需求报表,按照会员维度的日报、周报、月报,商户维度的日报、周报、月报。然后呢,业务上尝鲜几天时还挺爽,随后越来越少用直至不用,因为随着堆积迭代无法满足后来的业务需求,其主要数据质量有问题,每个报表数据经常不准、报表上根本看不出什么业务问题来,需要多张报表数据下载进一步加工,这是典型的不深入了解业务而导致数据模型、数据报表堆砌效应引起的。

当时大多数BI只能发挥不到1/3的作用,所受限制在于业务与数据的反复磨合,还有数据洞察与整合的客观的业务需要代沟,所谓的数据驱动只是停留在数据与业务分开干的阶段。


数据运营

大家已经从经营、分析的诉求重点转为数据化的精细运营上。随之而来的面临创新压力、如何做好精细化运营是当今企业遇到的问题。比如一款产品,想在互联网生存下去, 用户是基础,没有用户的产品或许可以自娱自娱自乐,否则将会面临一个问题,如何拉新、如何研究新用户,如何根据不同的用户习惯来调整产品。 对于产品的新用户,使用时会遇到各种问题,产品运营就必须去关注、去分析、以及去解决,这些过程都是需要数据来衡量与定位的。如果整个公司都处在一种由之前简单粗暴运营向经营分析乃至数据驱动的运营,必然会造成数据需求暴增。

【数据产品产生的原因】

  • 数据化运营对数据需求量越来越大,分析师、数据开发在面对大量的数据需求、海量的临时需求疲惫不堪,变成了资源的瓶颈, 用户其聚焦在无法快速的响应日常需求其表现为,做数据的已经无法满足当前业务日益增长的数据需求。
  • 互联网企业在运营上精细化已经对数据的粒度要求由高汇总逐渐转为过程化细粒度明细数据。而传统的各类的Report、OLAP 工具都无法满足互联网行业个性化的数据需求。
  • 统计过某公司近两个月分析师们的工作内容,背景是从3月份-5月份大家在邮件、需求登记管理平台等内容。大约覆盖分析师3个月工作85%左右,临时需求在69.44%之间,产品发布评估占到 8.89%、周期性需求为(新业务日报周报)6.11%、专题分析8%、数据类项占比为6.67%。这个团队的分析师平均每月工作天数如果全饱和,单纯临时需求总共消耗分析师超过140%时间,均超过35%人月,分析师没有一点时间搞其他的。变成了纯粹人肉取数机,更何况分析师还有其它日常工作、专题分析等,更不要说让分析师更有价值。

当数据平台、数据分析师想摆脱临时需求的困扰,提高自身的价值时,开始考虑把需求固定化变为一个面向用户自助式、半自助的产品来满足快速获取数据&分析的结果,当总结出的指标、分析方法(模型)、使用流程与工具有机的结合在一起时候,适合互联网时代的一类数据产品就诞生了。