《智能时代》_吴军
第一章 数据
- 数据是基础; 数据 $\to$ 信息 $\to$ 知识
- 信息:关于世界、人和事的描述,比数据更加抽象;信息可以是人类创造的(两个人的通话记录) 也可以是客观存在的(一个物体的质量)
- 数据 Vs. 信息:最大的区别在于 并非所有的数据都承载了有意义的信息
- 相关性:使用数据的钥匙;
- 我们无法直接获得信息(比如疫情传播情况),但我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接得到所要的信息;
- 统计学:
- 采集数据的两个要点:量 和 质
- 量:足够多的数据
- 质:有代表性,随机的
- 采集数据的两个要点:量 和 质
- 数学模型:数据驱动方法的基础
- 人们通常考虑用多个简单的模型取代一个复杂的模型;(并且这种效果可能是更佳)
第二章 大数据和机器智能
机器智能是什么
大量数据的使用,最大的意义在于它能让计算机完成一些过去只有人类才能做到的事情(并且以更低的成本),这最终将带来一场变革;
判断机器是否智能:图灵测试(Turing Test)
- 让一台机器和一个人坐在屏幕后面,让一个裁判同时与幕后的人和机器进行交流;
- 如果这个裁判无法判断自己交流的对象是人还是机器,这就说明这台机器有了和人同等的智能
计算机若有智能,应该要实现的事情:
- (1) 语音识别; (2) 机器翻译; (3) 文本的自动摘要和写作; (4) 战胜人类的国际象棋冠军; (5) 自动回答问题
传统的人工智能:首先了解人类是如何产生智能的,然后让计算机按照人的思路去做;
当我们回到图灵描述机器智能的原点时就能发现,机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法;
大数据
核心是变智能问题为数据问题
- Google翻译:数据创造的奇迹,从量变到质变; (弗朗兹.奥科 (Franz Och) 用了半年的时间 2004.7 - 2005.2 ,就超过了所有的科研机构)
- 大数据的三大特征:大量、多维度、全面性
- 及时性不是必须的,但若有了及时性可以做到更多的事情
- 机器解决人类问题的核心:变智能问题为数据问题
- 1996年 IBM深蓝Deep Blue 战胜国际象棋冠军 卡斯帕罗夫;(包括当下的 AlphaGo)【它们从来都没有像人一样思考,它们做的只是数据处理,求解概率,获取最优值】
- 深蓝团队只是把一个机器智能的问题转变成一个大量数据的问题和大量计算的问题;
- 通过计算机来回答复杂问题(比如天为什么是蓝色的):本质上还是数据问题 (做法是从现有的数据中挑选答案,但这些数据也是由人产生的)
- 第一步,根据网页确定哪些用户在Google问过的复杂问题可以回答,哪些回答不了;研究发现,70%-80%的问题在Google第一页搜索结果中都有答案
- 第二步,把问题和网页中的每一句话匹配,挑选出可能是答案的片段
- 第三步,利用自然语言处理技术,把答案的片段合成一个完成的段落
第三章 思维的革命
因果关系 $\to$ 相关关系
在无法确定因果关系时,数据为我们提供了解决问题的新方法。数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据的核心。
思维方式决定科学成就
从欧几里得、托勒密到牛顿
机械思维的核心思想概括为:确定性(或可预测性)和 因果关系
牛顿通过自己的伟大成就宣告了科学时代的到来。作为思想家,他让人们相信世界万物的运动变化规律是可以被认识的。
- 世界万物是运动的,而且这些运动遵循着确定性的规律,这些规律又是可以被认识的。
- 任何正确的理论从形式上都是简单的,且有非常好的通用性;
机械思维(通过牛顿的方法论来概括)的核心:
- 世界变化的规律是确定的
- 因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或者语言描述清楚
- 这些规律是通用的;可以应用到各种未知领域指导实践
机械思维的应用(分析找到原因,根据原因得到结果)
- 制药行业:研究病理找到真正致病的原因,然后针对整个原因找到解决方案
世界的不确定性
世界上很多事情都是难以用公式或者概率来表示的;但是它们并非没有规律可寻,通常可以用概率模型来描述。
世界不确定性的来源
影响世界的变量非常多。已经无法通过简单的办法或者公式算出结果,因为我们宁愿采用一些针对随机事件的方法来处理它们
客观世界本身。在宏观世界,可以画出行星的运动轨迹;在微观世界,不可能同时准确测出某一时刻的位置和运动速度
因为测量活动本身影响了被测量的结果
无法获得某一时刻的精准信息,但可以获得在某一时间段内可能出现结果的概率
- 例如电子的运动,无法确定电子的准确位置和速度;但可以知道在一定时间内在核外空间各处出现的概率
熵:新的世界观
熵:代表无序状态
鲁道夫. 克劳修斯 (Rudolf Clausius) 提出了 “熵” 的概念:来描述一个系统中趋向于恒温的程度。当这个系统达到恒温时,就无法做功了,此时熵最大。
- 玻尔兹曼把熵和封闭系统的无序状态联系起来。
- 封闭的系统中,熵永远都是朝着不断增加的方向发展的;
- 从微观上来说,这个系统越越来越无序,从宏观上越趋于恒温
- 玻尔兹曼把熵和封闭系统的无序状态联系起来。
香农,在信息论中提出了信息熵来描述一个信息系统的不确定性;
- 信息量的度量 = 不确定性的所少
- 消除系统内的不确定性就要引入信息
信息论是完全建立在不确定性基础上的。
互信息:解释为什么信息的想关心可以帮助我们解决问题
香农第一定律:对于信源发出的所有信息设计一种编码,该编码的平均长度一定大于该信源的信息熵,还指出并且存在一种编码方式,使得编码的平均长度无限接近于它的信息熵;
香农第二定律:信息的传播速率不可能超过信道的容量。
最大熵原理:当我们对未知的事件寻找一个概率模型时,这个模型应当满足我们所有已经看到的数据,但对未知的情况不做任何主观假设。
交叉熵:反映两个信息源之间的一致性;或者两种概率模型之间的一致性;(库尔贝克 Kullback-Leibler Divergence)
- 当两个数据源完全一致时,它们的交叉熵等于零
大数据的本质
- 大数据的三个特征:数据量大、多维度、完备性
- 大数据的科学基础是信息论,它的本质就是利用信息消除不确定性
从因果关系到强相关关系
一种新的思维方式:从大量的数据中直接找到答案,即使不知道原因
- 因果关系 Vs. 相关关系
- 传统的做法:通过因果关系推导出结果;
- 强相关关系:先现有结果再反推原因
- 更重视会发生什么,而不是为什么会发生
- 在电影租赁和收看视频的网站上,放上零食的广告;在咖啡评论和销售网站上,放信用卡和房贷的广告;
Google的搜索算法
在所有的数据中,与搜所质量相关性最高的就是大量的点击数据
- 根据用户的点击数据进行排序
- 存在的两个风险:(1) 用户点击容易形成马太效应;排在前面的结果即使不相关也容易获得更多的点击; (2) 单纯依靠点击,排名很容易被被使用者操纵
加入点击模型:度量用户点击数和搜索结果相关性的模型
在今天的搜索引擎中,搜索算法是占整体排名权重的70%~80%;即因果关系已经没有数据的相关性重要了
Google广告系统每次播放的内容,不是由任何规则决定的,而完全是利用数据、挖掘相关性的结果
第四章 大数据与商业
在未来我们可以看到,大数据和机器智能的工具就如同水和电这样的资源一样,由专门的公司向全世界提供使用;
- 原有的思维:假设—求证—再假设—再求证
- 亚马逊:由商品直接推荐商品(Item to Item)
- Google:两个不同的用户,在输入一半关键词之后,给他们的提示常常是不同的
大数据商业:数据流
无目的的收集原始数据 $\to$ 筛选、处理后的数据 $\to$ 数学模型
首先必须完成数据的收集
- 常规数据的流向是从枝末的局部到整体;利用大数据指导时,数据的流向是从整体到局部
- 大数据商业中,数据需要完成两个方向的流动
- 从每一个细节到整体 (得出统计规律)
- 从整体到每一个细节 (将统计规律与每一个细节做对比)
从历史经验看大数据
新技术 + 原有产业 = 新产业
现有产业 + 蒸汽机 = 新产业
现有产业 + 电 = 新产业
电改变的不仅仅是经济,还改变了国家的政治形态、生活方式和社会结构;
电对世界的影响还在于各种电器的发明
现有产品 + 摩尔定律 = 新产业
现有产业 + 大数据 = 新产业
现有产业 + 机器智能 = 新产业
- 安迪 - 比尔定律:软件功能的增加和改进要不断吃掉硬件性能的提升
- GE + 大数据思维的实际应用:在电冰箱中安装Wi-Fi
- 将Wi-Fi设备装到电冰箱和其他设备中,用来提示用户更换冰箱取水器的滤芯等耗性材料;这些材料通常半年更换一次,但大部分客户都很难更换
- 连上Wi-Fi之后,通过手机APP来提醒用户及时更换,并且整个购买流程在手机端完成
- 通过Wi-Fi 还可以获得用户使用电器的情况,为之后推销产品提供支持
第五章 大数据和智能革命的技术挑战
信息的四个方面
在面对数据时,可以从 产生、存储、传输和处理 四个角度去分析,做场景还原
- 数据的产生
- 电脑
- 传感器:无源的射频识别芯片(RFID)等
- 信息数字化:将原有的信息以数字化的形式进行存储;例如图片、语言、文档、书籍等
- 信息的存储
- 由于摩尔定律导致各种存储器的量成倍地增加,同时价格迅速下降,使得原本不得不丢弃的一些数据现在有条件存储起来
- 传输的计数
- 信息的处理
- 并行处理 + 云计算 的实现
数据收集:看似简单的难题
- 传统的数据方法通常先有一个特定的目的,然后开始收集数据;
- 在真实世界中,获得足够量的具有代表性的数据远比我们想象的难得多
- 对于长尾搜索,搜索结果的概率分布比真实情况相差一两倍是很常见的情况
- 大数据则是不假思索地收集所有数据
- 在收集数据时,是无意识之间完成的。因为若带有目的的收集数据,很多情况下可能收集数据这一行为就影响了数据原本的样子
因为在收集数据时没有前提和假设,大数据分析才给我们带来了很多意外的惊喜
数据存储的压力和数据表示的难题
数据量增长的速度可能超过摩尔定律增长的速度
解决数据存储的办法:
- 存储同样的信息占用的空间小;(并不是简单的数据压缩;从信息论的角度,就是去除数据的冗余,并在相应的数据读写处理做改变)
- 数据安全(指的是数据不丢失、不损坏,而不是指数据被盗)
信息存储不仅局限在节省存储量上,还需要研究怎样存储才能便于使用
过去:结构化数据
大数据时代,数据量与维度都剧增
- 对于富媒体数据的大量出现,随机访问就很难;比如要从视频中找出一个画面就非常复杂。因为即使找到了视频每一个主帧,也很难根据那些画面所所有的视频建立索引
如何标准化数据格式,以便共享(大数据公司都有自己的数据格式,并只在自己的领域中使用)
并行计算和实时处理:并非增加机器那么简单
- 影响并行处理效率的两个问题:
- 任何一个问题总有一部分计算是无法并行处理的,这类计算占比越大,并行处理的效率就越低;(木桶效应)
- 无法保证每个小任务的计算量是相同的;最终的计算速度取决于最后完成的子任务
- 对实时数据的挑战
- 一些看似简单的操作一到大数据上就会特别费时间;解决实时处理大数据的问题,需要从根本上改变系统设计和算法;
数据挖掘:机器智能的关键
信号与噪声比来度量信息质量;数据的信噪比越高,数据就越可靠;
机器学习:一个不断迭代、不断进步的过程;期望值最大化:事先设定一个学习的目标,这些算法就会不断优化模型,让它越来越接近真实的情况
- 数据量大,但采用比较简单的模型,而且比较少的迭代次数;即用大量的数据做一个浅层的机器学习
- 数据量小,但采用比较复杂的模型,而且经过多次迭代训练出准确的模型参数
一般情况下,由大量数据、较少迭代训练出的模型效果较好;
数据安全的技术
尽量将敏感信息放到不同的地方,一面多种敏感数据同时丢失;但这项事情执行起来很难,因为如果一项安全措施操作麻烦,很多人就不会遵守;比如在很多公司里,操作人员为了方便,通常习惯把分开存放的数据又拷贝到一个地方处理;
计算机系统的设计与高楼设计的不同:前者事先并不考虑安全的隐患,后者在每一个环节都要考虑安全的问题;
利用大数据本身的特点来保护数据的安全
- 通常一家机构里的业务流程是固定的,被授权操作员的使用习惯是可以学习的;那么不符合这些习惯的操作可能来自非法的闯入者;
- 假如有外来人员拿到密码进入了系统,由于他对内部的业务流程不了解,他的操作可能直接从A点绕到C点,然后跳到E点;因此可以通过大数据发现并制止异常操作;
利用大数据分析来防范黑客攻击,要比传统的在防火墙设置各种规则的做法有效5倍;
保护隐私:靠大数据的必要条件
- 大数据具有多维度和全面的特点,它可以从看似支离破碎的信息中完全复原一个人或一个组织的全貌; 在大数据中,匿名并不能使你得到真正的保护;
- 隐私 Vs. 便利性:大部分人在思考时会选择隐私;但在真正做行动时,会更倾向于放弃隐私以换取便利性;
- 保护隐私的新技术
- 从收集信息的一开始就对数据进行一些预处理;预处理后的数保留了原有的特性,使得使用者能够处理数据,却”读不懂” 数据的内容
- 双向监视:当使用者看计算机时,计算机也在盯着使用者;
- 大部分人喜欢偷窥别人的隐私;如果有人在刺探隐私时它的行为本身暴露了,那么他就会多少约束自己的行为
- 如果给窥视着一个选择,输入自己的真实信息后才能窥视他人,很多人会选择直接离开
第六章 未来智能化产业
第七章 智能革命和未来社会
精细化社会
追踪每一次交易:区块链
- 如果每一件商品被制造出来时产生一个区块链,并且在它被运输和交易时利用区块链记录全过程,那么这个商品的整个流通过程是可以追踪的;这样就可以杜绝假货,因为区块链与商品是一一对应的;
区块链(Block Chain)
- Block:模块、单元的意思;它像一个账户存储信息
- Chain:链条的意思;表示一连串的交易;交易的细节就存储在Block中
比特币被挖矿者挖出来时,就产生一个带有特殊随机数的Block,当这比特币通过交易转到第二个人的手中,在该Block中就记录了交易的信息,这个过程本质上是一个加密的信息传输过程
从标准化到个性化
- 工业化的一个结果,就是靠批量生产的效率让个人性化从大众市场消失;不仅产品是标准化的,服务也是标准化的
- 在工业革命以前,人类使用的产品、享受的服务都是有细微差别的;近代医学开始之前,每个人的用药都是不用同的;
- 在医疗方面,医生宁可治不好病,也不能违背流程
无隐私社会
隐私就像自由,只有当人们失去它的时候,才知道它的可贵;
今天很多人忽视大数据对个人隐私的潜在威胁,原因在于:
- 对整个问题缺乏认识,他们并不知道多维度的信息凑到一起就能够得到一个人的完整画像
- 低估了机器智能的力量
- 一厢情愿地把个人隐私寄托在数据拥有者的善意上
机器抢掉人的饭碗
解决问题只有靠时间 ;每一次重大的技术革命都需要很长的时间来消除它所带来的负面影响;至少需要一代人以上;
- 技术革命会使很多产业消失,或者产业的从业人口大量减少,释放出来的劳动力需要寻找出路
- 我们必须承认一个不愿承认的事实:被淘汰的产业的从业人员能够进入新行业中的其实非常少
虽然各国政府通过各种手段帮助失业人员掌握新技能,但收效甚微;因为上一代的人很难适应下一代的技术发展;事实上,消化这些劳动力主要靠的是等待他们逐渐退出劳务市场,而并非他们真正有了新的出路。
其他摘抄
- 科学研究发展的四个范式
- 描述自然现象的实验科学
- 以牛顿定律和麦克斯韦方程等为代表的理论科学
- 模拟复杂现象的计算机科学
- 数据密集型科学
- 工业革命
- 以蒸汽机的发明为标志以机械化为特征的第一次工业革命
- 以点的发明为标志以电气化为特征的第二次工业革命
- 归纳法的隐含假设:未来将继续和过去一样;即连续型假设