下一次浪潮——机器智能

时间:2015.03.04 来源:EMBA办公室

吴军丰元创投的创始合伙人、Google前主任研究员、腾讯前副总裁,畅销书《浪潮之巅》、《数学之美》和《文明之光》的作者。毕业于约翰霍普金斯大学(博士)。此外,担任约翰霍普金斯大学工学院董事和中国工业和信息化部顾问,拥有十多项美国和国际专利,并且在世界上发表过数十篇论文。

人类祖先引以为豪的是我们的大脑,人类发展过程中发明了很多机器,延伸了手和脚,使我们的能力变得非常强,能够走到各种各样的地方干各种各样的事情,所以人类一 直 有 一 个 梦 想 —— 我 们 的 大 脑 能 不 能 延伸?

世 界 上 第 一 台 电 子 计 算 机 ENIAC, 计算速度是每秒钟五千字,可能连现在大家手机的百分之一都不到。当时美国制造计算机是因为战争的需要,战争是推动技术进步之一。那么,既然计算机在做脑力运算,它会不会产生智能?为什么计算机出现以后至今仍没有真正的机器智能?很多自信的人都说计算机是靠计算快,并不聪明。而当这些计算机的计算速度足够快的时候是否可能从另一 方 面 解 决 一 些 智 能 问 题? 有 人 觉 得 可 以,有人觉得不可以。觉得不可以的原因是认为计算机不可能像人一样进行思考。但到目前为止,似乎计算机在处理智能问题方面做得比 人 还 好, 比 如 语 言 翻 译。 对 于 机 器 智 能,似乎要换一个角度来思考,它可能和人的智能不同,当计算强大到了一定程度量变可以产生质变。

现实生活当中如果什么事务有了指数增长,那是一件非常可怕的事情。计算机通过计算解决了一部分智能问题,由于计算速度呈指数上升,而人的智力可以线性往上发展就不错了,这些年甚至是水平的。于是,在某一个时间点可能就会发生一个奇迹,机器智能会超过人的智能,今天就处在这个交叉点上。未来真正强大的机器人是什么样的?并不像阿童木那样长着手脚,也不是扫地或到火星上的机器人,而是数据中心背后几万台、几十万台的服务器,最强大的计算能力将是智能的算法,会导致机器智能。

什么叫做机器智能?早在上个世纪五十年代计算机诞生没多久,图林就提出了测算计算机有没有智能的办法,叫做“图林测试”。根据图林定义,智能化就是能够回答一个问题,能够听懂人的语音,或者能够把一种语言翻译成另一种语言。在他看来,语音识别根本不是所谓的人工智能问题,而是一个通信问题。他找了一个 Data-Driven 的方法,通过通信来解决机器智能的问题。在这以前人 类 语 音 识 别 能 够 做 到 识 别 几 百 个 关 键 词,错误率大概是百分之三十 ;而 IBM 机器的计算能力很强,能够识别两万个单词,识别的错误率从百分之三十降低到百分之十。今天手机的能力比当年 IBM 计算机强很多,语音识别已经比较准确了。另一个解决的问题就是机器翻译,当时由于数据量的限制,没有解决得太好,但已经开创了一条路,现在机器翻译已经可以做得很好了。

什么是大数据?大数据首先是数据量大,还有就是多维度。怎么理解多维度呢?比如不同收入、不同年龄、不同性别的人饮食习惯不同,如果集中在一个地区,可以看到经济 发 展 GDP 水 平 到 了 一 个 什 么 程 度, 可 以从他们饮食变化找到饮食和收入水平的关系。过去我们理解数据时总有一些长尾问题,但由于多维度这个特点,很可能一个维度是长尾的,另一个维度并不是,所以很多问题是可以解决的,数据量大的不一定都是大数据。大数据的重要性不完全是在技术层面,一旦数据到了一定程度发生质变就会改变我们思维和做事的方式,而且会带来很多意想不到的结果。未来二十年是大数据时代,现在 正 在 经 历 从“ 摩 尔 定 律 ” 到“ 数 据 为 王 ”的过程,未来所有的公司可能都是大数据公司,大数据不仅会改变 IT 行业,甚至会改变社会。孙正义说过,未来所有的产业要么数字化,要么消失。当然,可能说得有点过分。我们完全看好这种拥有数据处理能力的公司,传统公司如果不能成为一个真正的大数据公司,反而可能会被淘汰。

大数据的几个关键技术,首先是数据的收集,大数据常常是在无目的的情况下收集起来的,而且是非结构化的。为什么要强调无目的性呢?因为有时有了目的性,数据收集 起 来 反 而 不 准。 另 外 就 是 大 数 据 的 存 储,现在“摩尔定律”把存储的容量提高了太多,是不是说存储就不是问题?也仍是问题,关键在于要储存多大的数据量,这么大的数据量放在哪里,平时怎么管理怎么访问都是问题。还有就是数据的表示、检索和随机访问。今天涉及到的互联网数据都是好处理的,因为单元很小 ;但有些医疗数据、影像数据甚至 更 复 杂 的 DNA 图 谱, 颗 粒 都 很 大, 这 种数据的处理就是一个新的挑战,可以让人很轻松地访问和检索。

真正解决机器智能的问题要靠工具,不能只靠人的方法来解决智能问题。计算机的强项在计算,一定要发挥它的计算功能,要靠数据驱动,所以需要大数据。还要把它整理出来、挖掘出来,所以需要一个数学模型。早期认为实现机器智能有几个标准,包括语音识别、机器翻译,更重要的是计算机能不能回答问题。坦率地说,从图林提出一直到四五年前都做得很不好。所有学术界发表的论文都能够做一些简单问题的回答,但对于复杂的问题就很难回答。这里有一个很大的差距,就是人的智能和机器智能的差距。我们所做的实际上不是像过去说的让计算机用人的思维回答问题,而是用一个数学模型想办法找出这种答案,然后将一些小的短语拼成句子,如此而已。通过这种和人类完全不同的方法实际上就解决了智能问题。

未来到底是人的世界还是机器的世界?很明显,机器智能的出现将在很大程度上冲击我们的社会。但是大家不用怕,未来世界是这个样子,人的创造力是一个核心,机器本身是看着人怎么做它就怎么做,但制造这些智能机器的可能只有百分之二的人,机器本身不会控制人,但实际上就是这百分之二的人变相地控制百分之九十八的人。我们在这样一个时代需要改变思维,使自己不至于落入那百分之九十八。怎么成为这百分之二呢?我们提出了大数据的思维方式。

什么叫做大数据思维方式?首先是全面性,大数据不是简单的数据量大。比如把人体的 DNA 解码存起来大概一个多 P,但得不到任何规律,没有任何意义。而所有人在一起就有了意义,有了一种全面性。如果要否认大数据思维是怎样的呢?占领华尔街时反对百分之二的人,但百分之二的人在哪?不知道。他们挣的钱都是合法的,为什么要反对?不知道,就是要反对他们,因为他们比我们有钱。所以这将来可能会是一个非常严重的社会问题。

未来谁是大数据公司?任何一个把触角伸向每一个人的公司都是大数据公司。这就是机会所在,包括你和我,每一个人做的公司都可能会是大数据公司。