Jimmy那些事儿

《大数据时代》读书笔记_维克托&肯尼斯

《大数据时代》_维克托•迈尔-舍恩伯格 & 肯尼斯•库克耶

Viktor Mayer-Schonberger & Kenneth Cukier

  1. why :我为什么读这本书,想解决什么问题?


  • 从追求因果关系转而向追求相关关系的发现和使用。

    • 即只需要知道是什么,而不需要知道为什么;(这一概念的深入阐述,可阅读《智能时代》-吴军)
    • 不再需要在还没有收集数据之前,就把我们的分析建立在早已设立的少量假设的基础之上。让数据发声,我们会注意到很多以前从来没有意识到的联系的存在。

    因果关系很难找到,因为它的发生(结果),本身就置于一个非常复杂的背景中;结果只有一个,但因素却又无穷多个;

  • 数据当前还没有被列入企业的资产,但这只是一个时间问题。

  • 我们怎么看待使用所有数据 和 使用部分数据的差别,以及我们怎样选择范松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。 【精确性的选择,对结果的准度要求】

  • 应该更多地考虑:当数据说话时会发生什么;

  • 大数据只能基于现有的,而创造性却是突破规则的; 如果亨利.福特问大数据顾客想要的是什么,大数据将会回答 “一匹更快的马”。

大数据4V

Volume:大量

Velocity:快速

Variety:多维度

Value:价值


第一部分 大数据时代的思维变革

主要讲述了什么是大数据这一概念,以及它的特点

1. 更多 - 不是随机样本,而是全体数据

  1. 利用所有数据,而不再仅仅依靠一小部分数据

  2. 数据统计中选择数据的两个标准:量与质

    • 质:选择样本的随机性(这个比量的要求更难达到);并且,采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大;
    • 量:要求一定数量的样本;但当样本数量达到某个值之后,我们从新个体上得到的信息会越来越少;

    采样忽视了细节考察,但我们别无选择;

  3. 样本 = 总体 大数据采用的是所有数据;


2. 更杂 - 不是精确性,而是混杂性

我们怎么看待使用所有数据 和 使用部分数据的差别,以及我们怎样选择范松要求并取代严格的精确性,将会对我们与世界的沟通产生深刻的影响。

  1. 允许不精确; 即容错性;

    • 大数据通常用概率说话,而不是用确定无疑的态度; (整个社会习惯这种思维需要一段时间)
  2. 大数据的简单算法比小数据的复杂算法更有效

    • 案例:Google的翻译软件 的正确率大于其他任何的软件;但Google的研究时间仅2年左右,远远低于其他公司;唯一的区别是数据量级上的不同;
  3. 大数据时代要求我们重新审视精确性的优劣;

    • 大数据不仅让我们不在期待精确性,也让我们无法实现精确性;
    • 错误并不是大数据固有的特性,而是一个急需我们去处理的现实问题,并且有可能长期存在;

    拥有更大数据量所带来的利益远远超过增加一点精确性;

    除一些高精度的设备与行业必须要求数据精准(金融、精密仪器制造)

  4. 非关系型数据库的诞生(NoSQL):它不需要预先设定记录结构,允许记录与处理各种不同的数据;

  5. 大数据让我们更加真实与全面地认识这个世界;

Hadoop:与Google的MapReduce系统相对应的开源式分布系统的基础架构。通过把大数据变成小模块然后分配给其他机器进行分析,最后将结果汇总来实现对大量数据的处理;


3. 更好 - 不是因果关系,而是相关关系

知道 “ 是什么 “ 就够了,没必要知道 “ 为什么 “

通过去探求 “ 是什么 “ 而不是 “ 为什么 “ ,相关关系帮助我们更好地了解这个世界;

  1. 知道 “ 是什么 “ 就够了,没必要知道 “ 为什么 “
    • 亚马逊的推荐系统:它并不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书。但这似乎并不重要。【关键是确定核心思想:预测 or 推断 or 分类/聚类】
  2. 相关关系通过有用的关联无来帮助我们分析一个现象,而不是通过揭示内部的运作机制;相关关系没有绝对,只有可能性。【转变到概率性思维】
    • 我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来
      • 如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了;这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接观察到A 【这种思维方式的转变很重要】
  3. 相关的相关关系的应用在之前就已经存在。【常规的分析方法:假设-收集数据-验证-修正】
    • 统计学家喜欢找到一个关联物,然后收集与之相关的数据进行相关关系分析来评测这关联物的优劣;并且专家们还会使用一些建立在理论基础上的假想来指导自己选择关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。然后收集与关联物相关的数据来进行相关分析,以证明这个关联物是否真的合适;如果不是合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假设建立的基础都是有缺陷和需要修改的。 这种假设的反复试验促进了学科的发展。
    • 我们理解世界不在需要建立在假设的基础上,这个假设是指针对性现象建立的有关其产生机制和内在机理的假设
    • 建立在相关关系分析法基础上的预测是大数据的核心;
  4. 实验是通过是否有诱因这两种情况,分别来观察所产生的结果是不是和真实情况相符;如果相符就说明确实存在因果关系;这个衡量假说的验证情况控制得越严格,你就会发现因果关系越有可能真实存在;
  5. 若要找出相关关系,我们可以用数学方法;但如果是因果关系,这是行不通的


第二部分 大数据时代的商业变革


4. 数据化 - 一切可量化

  1. 数字化:把模拟数据转换成 0 和 1 表示的二进制码;成果是给机器阅读;
  2. 数据化:把现象转变为可制表分析的量化形式的过程;成果是给人看的


5. 价值 - 用之不竭

  1. 数据通常是为了某个特定的目的而被收集;
  2. 不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理;
  3. 数据的价值并不局限于特定的用途,它可以为了同一目的而被多次使用,也可以用于其他目的;
  4. Google的拼写检查,不同于其他公司的就是它没有排除错误的内容;Google的拼写检查系统显示,那些 “不合标准、不正确、有缺陷” 的数据也是非常有用的;
    • 当用户输入 “流行学病” 时,用户可以通过点击正确的术语明确地告诉Google需要重新查询的内容


6. 角色定位 - 数据、技术与思维

  1. 大数据价值链的三个构成
    • 基于数据本身的公司 : 拥有大龄数据或者至少可以搜集到大量数据,却一定有从数据中提取价值或者用数据催生创新思想的技能
    • 基于技能的公司: 咨询公司、技术供应商、分析公司;掌握了技能但并不
    • 基于思维的公司: 创新思维;他们思考的只有可能,而不是所谓的可行;


第三部分 大数据时代的管理变革


7. 风险

  1. 匿名化对大数据是无效的;
    • 收集的数据越来越多;
    • 结合越来越多不同的来源;


8. 掌控

  1. 个人隐私保护:从个人许可到让数据使用者承担责任
    • 数据使用者比任何人都明白他们想要如何利用数据;