大数据,想象力以及正在被改变的世界
谷歌位于美国俄勒冈州达尔斯资料中心的机房
概念:大数据与云计算
早晨我睁开眼,一般第一件事就是去摸枕边的手机,打开微信,看看朋友圈里最新的动态,再打开新闻客户端,看看最新的消息。天气预报和监测空气质量的APP已经精确到了以小时计,不用跑到阳台上去看天气,就能确定穿什么。洗漱的时候,豆瓣音乐里播放着推荐的最新歌曲。吃过早饭去上班,如果有采访,出门的时候首先用地图搜索一下路线。在地铁上,打开微信公众账号看几篇最新的评论,等采访对象的时候,打开手机邮箱,温习一下存在发件箱里的采访提纲,至于采访时的录音,当然也交给手机完成了。
趁着午饭的时候,用微信跟家人联系一下,顺便发几张最新的照片到朋友圈与大家分享。下午的时间,多数时候是在办公室度过,在网上搜集新闻线索,查找采访对象的联络方式,登录学术网站下载几篇相关的论文看看。傍晚下班后,如果不想挤地铁,可以打开拼车软件搜索一下附近有没有同行的人。回家路上,看看已经下载到手机里的新电影,还可以顺便登录网店买本朋友推荐的新书。
这样的生活轨迹,相信对绝大部分年轻人来说并不陌生,手机已经成为我们生活中必不可少的伙伴,可以用来工作、娱乐、购物、社交、搜索、找路等等,但我们可能并没有意识到,所有这些便利的功能,背后都依赖海量数据的运算。同时,我们自己也成为数据“供应商”——当我们使用微信,数据会保存在腾讯的服务器上;当我们查看天气预报、空气质量、搜索路线、接发邮件,不仅第三方服务商掌握了这些数据,通信运营商也会了解我们一天的活动轨迹。至于看电影和购物,服务商很容易就此可以判断出我们个人的喜好。
人类历史上,从来没有一个时代像今天这样与数据紧密相连,各种各样的智能终端设备使得数据生产无处不在。同时,社交媒体、即时通讯和视频网站的普及,又使得我们产生的数据不再局限于传统的文字、表格,非结构数据已经远远超越了结构化数据。单纯以量来说,一家谷歌公司每天要处理的数据量就超过24PB(1PB=1024TB,1TB=1024GB),相当于美国国家图书馆所有纸质出版物数据量的上千倍。人们用了很多种类比方式来描述今天的数据量之庞大,但其实,在超越了一定量级之后,数据到底有多少已经不再是最主要的问题。就像一只蚂蚁和一头大象的对比,当这两者放在一起的时候,不会有人再去追究大象的具体重量,更重要的问题变成,我们该如何面对海量的数据?
大数据(BigData)并非新鲜事物,但直到2011年6月,麦肯锡咨询公司发布了《大数据:下一个竞争、创新和生产力的前沿领域》的研究报告,这一概念才成为业界竞相解读的对象。2012年,牛津大学教授维克托·迈尔·舍恩伯格与《经济学人》数据编辑肯尼斯·库克耶合著的《大数据时代》一书出版,顿时掀起一股大数据风潮。
业内普遍用4V来定义它——海量(Volume)、多样(Variety)、快速(Velocity)、准确(Veracity),但电子科技大学互联网科学中心主任周涛更倾向于在这后面再加一个V——价值(Value)。“关键是我们如何发掘数据的价值。”周涛也是《大数据时代》一书的中文译者,他告诉本刊记者,“传统思维对数据的认知大多局限在记录与查找上,但大数据时代,我们需要重新来认识数据的价值。比如以前不会计入交易记录的点击浏览,实际上反映了你的兴趣偏好,是有价值的。”舍恩伯格在他的书里强调必须要转变思维——首先,样本=总体;其次,承认数据的混杂性;再者,重视数据之间的相关关系,而非因果关系。
作为现代统计学的发明,随机抽样其实是一个迫不得已的方法,代表着人类对精确性的孜孜追求。人口普查大概是最早使用随机抽样的领域,但随着人口数量越来越多,1880年美国使用穿孔卡片进行人口普查,要耗时8年才能完成数据汇总,最后得出的还只是一个推测性的结论。这是一个悖论,8年之后,人口规模早已变化。而现在,借助更先进的存储和计算技术,我们可以完成全体样本的精准统计,也不过只要几天的时间。
与大数据之“大”相比,对数据之间关系的认识则更需要我们来一场思维革命。IBM新兴市场部大数据中心总监王晓梅向我们强调,传统的数据库处理方式一直强调因果关系,为的是做预测性分析,而大数据时代的思维,则更强调从大量、混沌的数据中去寻找规律。“不需要追究为什么,只需要告诉我是什么,只要数据本身是真实的,哪怕不精确,也应该大胆拥抱,只要大到一定的量级,自然可以弥补不精确性的缺陷。”
IBM新兴市场部大数据中心总监王晓梅
在对数据关系的认知上,谷歌(Google)公司开创了先河。机器翻译最早出现在“二战”以后,当时为了破译美国间谍截获的苏联信息,IBM公司以计算机中的250个词语和6条语法法则为基础,将60个俄语词组翻译成了英语,一时振奋人心。但是此后几十年的发展,机器翻译始终没有解决准确度的问题。2006年,谷歌公司涉足机器翻译,改变了以前的传统思维模式,不再单纯利用两种语言之间的文本翻译,不再把精力局限在精确翻译300万句话上,而是利用整个互联网对各种语言数据的记录,利用那些翻译质量参差不齐的数十亿页文档,建立起一个万亿数量级的语料库。某种程度上,这与之前对某句话、某个词的精确追求背道而驰,但这个庞大的语料库却有效地弥补了这个问题。也许一个人给出的翻译不准确,但如果能够收集100万个人给出的翻译,使用最多的自然就成了最准确的译法。这是语言的天性——它的使用基于人类的习惯;这也是谷歌翻译高效的秘诀——它承认了数据的混杂。
更实际的问题是,即便认识到这些,我们该用什么样的方法去存储与处理大数据——如果离开云计算来谈大数据,则容易浮在云端;而如果离开大数据来谈云计算,就变成了无本之木。
云计算的概念最早出现在2006年,在当年8月举行的搜索引擎战略大会上,谷歌CEO施密特在回答主持人提问的时候,第一次使用了“云”(cloud)这个词来描述他的服务器。但是,在现实中,业界对这一计算方式的探索则要早得多。
每一家互联网公司,都会遇到一个相同的问题——如何管理和维护成千上万台服务器。虽然服务器的性能在不断提升,但随着数据存储量呈爆炸式增长,服务器数量也在飞速扩张。几十台服务器可以人工维护,但如果有几万台服务器,怎么办?姚宏宇2001年进入美国雅虎的时候,就面临这样一个棘手的问题,雅虎邮箱每天都会有海量的数据需要存储,如何保证服务器系统的容量和稳定。他向本刊记者回忆,那时候,他白天编程,晚上加班组装服务器是家常便饭,第二天一大早又要赶去公司,因为要赶在股市开盘之前检查网站的稳定性。对雅虎这样的大型互联网公司来说,服务器的数量至少几十万台,每年光花在邮箱数据存储上的费用就高达数亿美元。
就在施密特提出“云计算”几周之后,亚马逊推出了EC2业务——将闲置的大量存储和计算资源向外出租或出售。在姚宏宇看来,这才是云时代的第一个转折点,“亚马逊的贝索斯为云技术找到了一个行之有效的商业模式,也让云计算通过一种具体的服务方式落了地”。而这事儿之所以由亚马逊公司首创,也在情理之中。作为号称销售一切的电子商务网站,为了应对高峰期大规模的交易业务,亚马逊一直在不断扩充其服务器等基础设施建设。但是,这些耗资巨大的服务器,过了销售高峰期就会陷入大量资源的闲置状态中,如何利用这些被浪费的资源一直是贝索斯思考的商业方向。
即便是大型互联网公司的服务器,往往也不是集中在一个地方,如果将他们链接起来,通过软件实现资源的统一调配,存储和计算能力将会进一步释放。顺着贝索斯思考的方向延伸出去,以英特尔和微软主导的产业方向,一直在追求更高的CPU性能、更大的存储空间,但承载它们的是一台台独立的PC,只是,每个人对PC的使用,毕竟各有不同,总是会有很多资源处于闲置状态。如果能够将这些暂时闲置的计算资源整合起来,形成一团虚拟的“云”,大家就能各取所需。
其实,这样的想法由来已久。早在1995年,为了对抗快速崛起的微软,甲骨文(Oracle)公司的CEO拉里·埃里森就推出了一款名为“网络计算机”的设备,当时售价500美元,不需要安装微软的操作系统就可以使用。埃里森揶揄道:“个人电脑(PC)是一种可笑的设备。”他设想这样一台设备,可以像插入插座获得电力一样,即插就能获得数据。但是,这款设备生不逢时,很快就退出了市场,因为当时的网络传输速度极慢,产生的数据也没有那么大,在自家的电脑上就可以轻松完成。但是,埃里森的这个想法却深深地影响了硅谷,奠定了现在云计算的雏形。
这就是“云存储”和“云计算”的由来。简而言之,就像是工业革命时期的“福特生产线”一样,云计算就是信息时代的社会分工——主机即将消失,未来不管你使用什么装备,一台手机或者一部平板电脑,都只是一款简单的显示屏和操作平台,而把复杂的存储和计算交给“云”端的专业机构——也许是建在荒漠里的大型数据中心,也许是坐落在城市郊区的小型数据工厂,由此形成“厚云薄端”的格局。
科技并非凭空想象的产物,而是为了解决现实的问题。为了快速整理海量的数据资源,尤其是那些来自影像、语音等渠道的非结构性数据,雅虎公司还发明了Hadoop技术,这是一种并行分布式计算方式,通俗地讲,就是将之前庞大的整体计算任务拆分成无数个小任务并列进行,然后通过一套系统将它们整合起来。
大数据催生了云计算;反过来,云计算又进一步激发了人们对大数据的认识。2007年,已经在硅谷闻到“云”气味的姚宏宇回国,创办了现在的友友天宇系统技术有限公司,专门从事基于云计算技术的软件开发。在他看来,大数据与云计算的结合,已经超越了工具性的范畴。“IT技术有过两次重要的变革,一次是上世纪80年代,以微软和苹果为代表的PC革命,推动了信息技术的普及;另一次是本世纪初,以雅虎和谷歌为代表的互联网革命,实现了信息共享。”他告诉本刊记者,“依照螺旋上升的原理,大数据和云计算将掀起第三次科技革命,其影响会远远超过前两次变革。”
图景:现实与未来
一、商业——个性交易
亚马逊总裁杰夫·贝索斯说过:“如果我的网站上有一百万个顾客,我就应该有一百万个商店。”现在的零售网站在挖掘顾客偏好的时候主要有两种方式:一种是基于用户,来判断顾客之间的相似性,比如当你在网上买了一本最新的小说,网站就会自动提醒你买这本小说的顾客中还有65%的人买了另外一本。借助“群体的智慧”,让顾客的购买行为来帮助完成“人以群分”。另一种方式是基于商品,通过判断商品之间的关联度来完成推荐,比如当你购买了一款剃须刀,网站自然就会就推荐一款对应的须后水,由此形成“物以类聚”。
这种基于“协同过滤”技术的推荐引擎,现在已经比较普遍,其实,大数据还能做更多。比如,你登录购物网站,浏览了几款商品,但最后没有下单,以前认为这些数据是没用的,不计入交易记录,但其实你的网络路径已经折射了你的喜好,你寻找某一款商品的方式,你在某一款商品上停留的时间多少,都可以推断出你潜在的购买意愿。专门从事推荐引擎开发的百分点公司就是这一领域的探索者,公司创始人苏萌告诉本刊记者:“从数据的价值来看,没买比买了更重要。”
曾在美国学习营销模型的苏萌说,大数据将会实现营销人的终极追求——真正了解每一个人的需求,而不是为群体画像。未来,随着大数据的深度挖掘,很有可能会出现这样一幕场景——你想买一款护肤品,登录购物网站后,还没等搜索,就已经有两款适合你的护肤品显示在页面上了,而且还是你心仪的牌子。为什么网站能了解你的需求,很可能是因为你刚刚在微博上跟朋友讨论起这个牌子的护肤品。当然,如果你不喜欢这种略显“亲密”的销售方式,只需关闭推荐任务即可。
美国妇女尼基·史密斯(左)正在用谷歌翻译软件给领养的女儿讲笑话
如果你厌倦了网络购物,周末想跟家人一起去逛逛超市,大数据照样能够大显身手。大型超市宛如迷宫,商品琳琅满目,很多人不喜欢去超市,主要是因为购物效率太低,找起东西来太麻烦。英格兰最大的连锁超市Stop﹠Shop开发了一套智能购物车系统,他们在超市的购物车上安装了一个计算机,并在超市内部布置了无线网,顾客只需要在会员卡上勾出自己的购物清单,然后在购物车计算机上刷一下,屏幕上就会自动显示出你的“最优购物路线”,通过天花板上的位置追踪系统,指引你到选中的货架面前。另外一家名为Sensory的公司更进一步,正在开发一种可以和顾客交谈的智能系统,取名为“超市阿凡达”。当你站在摆满薯片的货架面前犹豫不决时,购物车显示屏上的“阿凡达”就开口了:“您需要什么样的薯片?”“我想要低糖的番茄味。”很快,阿凡达回道:“在上面第二排靠左边位置,我推荐乐事的。”这背后,依托的就是对大数据快速而精准的运算,因为你的位置信息、语音信息和商品的详细信息,都可以转化成数据。
不单零售业,大数据已经开始影响很多传统行业,比如金融和保险,他们最大的挑战都是风险控制。百分点公司与一家银行合作,利用大数据的方式来筛选网上登记的信用卡申请资料。苏萌向本刊记者介绍,这家银行的信用卡网上申请,只有1/5的人能够通过,之所以通过率很低,是因为信息不对称,仅凭有限的个人资料,银行不敢贸然发卡。因为百分点的个性化搜索引擎与国内几十家电子购物网站都有合作,掌握了丰富的消费者数据,成为筛选信用卡客户的利器。“比如你申请信用卡的这个ID,在过去的两个月内从网上买过一台数码相机、一件品牌服装,就能大概判断出你的消费水平,从而推断你的还款能力。”苏萌介绍说。
另外一家从事大数据业务的天云融创数据公司正在与一家保险公司合作,其CEO雷涛向本刊记者介绍,保险公司很担心客户流失,但对于几十万客户来说,如何判断哪些人有可能流失是个难题。传统办法往往是做抽样调查,形成分析报告,然后找对策、实施、再评估。这样一个流程下来,速度慢,而且效果不可控。现在,借助大数据,保险公司可以通过客户的保险记录,清晰地判断每个人的流失风险,每个销售员手机上都下载了一个客户端,可以轻松查到自己客户的流失风险指数,由他们去对症下药即可,最后再由销售员反馈效果,自动生成评估结果。雷涛告诉本刊记者:“大数据可以让系统生成一个闭环操作,扁平化决策,自动化运行。”
高德地图交通信息事业部总经理董振宁
二、医疗——认识自己
大数据在医疗保健领域的应用更加鼓舞人心。认识自己一直是人类不懈的追求,自从1953年詹姆斯·沃森博士和弗朗西斯·克里克博士提出脱氧核糖核酸(DNA)结构之后,基因测序成为人们梦寐以求揭开自身密码的钥匙。但是,基因分析需要超强的计算能力,DNA分子由排列成约30亿个精密序列的化学基础组成,即使是单细胞细菌,大肠杆菌的DNA分子也有足以占据整套《大不列颠百科全书》的信息。乔布斯利用基因测序来治疗癌症的案例已经广为流传,但他花费了十几万美元,最终也只是延长了两年寿命。
现在,随着大数据计算的发展,专门从事基因测序业务的23andMe公司推出了低至99美元的服务。不管你在世界的哪个角落,只需要吐一口唾沫或拔一根头发,邮寄到23andMe位于加利福尼亚州山景城的实验室里,两周后你就可以从他们网站上查询你的“身体秘密”。23andMe公司宣布,通过全基因组上超过100万个位点的基因信息分析,他们可以对259种疾病提出患病率的预测和祖先遗传分析,从而提前干预。仅仅在10年前,这项技术却需要耗费惊人的27亿美元,再加上数百科学家13年的时间。不久的将来,诸如23andMe这样的基因技术公司会越来越多,由此给制药业带来的影响将显而易见,有望实现真正的个性化诊断。
IBM“大数据宝宝”的案例就是其中一个代表。在2010年来中国之前,王晓梅一直待在IBM多伦多实验室里从事传统数据管理工作。在多伦多,有一家全球著名的病童医院,专门收治来自世界各地16岁以下的疑难症病童。王晓梅向本刊记者介绍,在医学领域,如何提高早产儿的存活率一直是医生面临的最大挑战之一。全世界通行的做法是将早产儿放到保温箱里,每隔半小时由护士来记录一次仪器监测数据。但是,早产儿的死亡大多发生在出生后24小时内,因为新生儿的体征表现不明显,加之往往早产儿在病发前几个小时,身体各项指标会表现得特别健康,其实是一种假象。于是,当数据记录发现问题的时候,往往已经错过了最佳的抢救时机。
IBM与这家医院合作,联合安大略省理工学院,共同开发了一套基于大数据技术的新生儿实时监测系统。在早产儿身上贴上传感器,通过它们把表皮以下的体征指数迅速捕捉下来,并且进行实时记录。这样一来,虽然数据量变得庞大了许多,但能够保证数据的准确性与即时性,再通过IBM创造的流计算技术进行实时分析,一旦发现异常,马上介入抢救,大大提高了早产儿的存活率。
三、地图——方位魔力
美国海军军官莫里(Maury)绘制的航海图,可能是大数据在地图领域的最早实践之一。1839年,他因为马车翻车导致大腿粉碎性骨折,留下残疾,从此离开了海上生活,美国海军任命他为图标和仪器厂的负责人。传统的航海大多是依靠的老船长的丰富经验,他们大脑里有一张隐形的航线图,每次航行还会带回一沓厚厚的航海日志。这些手绘的航线图和日志尘封在库房里,已经积累了数百年。莫里意识到,如果把它们整理到一起,将有可能呈现出一张全新的航海图。他雇用了20个人来整理数据,把整个大西洋按经纬度划分成五块,并按月份标出温度、风俗和风向,最后绘制出一幅标准的航海地图。他把航海图分发给船长们,要求以他们的航海日志为回报,这样他就能够在新航海图上添加更详尽的数据。
2002年高德地图成立时,电子地图刚刚兴起没多久,现在,基于地理位置的服务(LBS)已经成为移动互联领域的主力之一。借助大数据的相关技术,不仅静态的地图服务越来越精准,动态的交通管理也开始走向智能化。
以北京为例,交通拥堵一直是个头疼的问题,很大程度上,是因为信息技术没有充分利用起来,早晚高峰的时候车辆都集中在主干道和环路上,而作为毛细血管的支干道路车辆却比较少。高德交通信息事业部总经理董振宁告诉本刊记者,经过大数据分析发现,即便在北京最堵车的时刻,比如周五的晚高峰,也只有20%的道路发生严重拥堵,另外80%的道路是顺畅的,甚至有的路上一辆车都见不到。如果有一套系统,能够让大家对全市的交通状况实时掌握,就可以及时调整出行路线,大大节省交通时间。
传统的实时交通监测,主要有两种方式,一种是交通管理部门采用的固定监测法,通过架设在路上的摄像头、埋在路面下的传感器,来监测某一地点不同时段的交通流量。另一种是交通广播电台采用的人海战术,他们在全市发动了几千个交通信息播报员,通过他们人工反馈来实时播报交通状况。但是,这两种方式都面临一个问题——覆盖率不高。现在,有了大数据,我们可以换一种思路——干脆把车子当作一个自动的信息员。
高德地图交通信息事业部总经理董振宁向本刊记者介绍,北京现有出租车6万多辆,基本都装有GPS定位设备,主要用于安防和调度,海量的行驶轨迹数据没有充分利用起来。高德与出租公司合作,选取其中的4万多辆,实时共享他们的行驶轨迹数据,这就意味着在北京布置了4万多个移动的检测器。每隔10秒钟到1分钟,出租车会自动把自己的位置信息发回大数据中心,大数据中心就能自动计算每条道路的实时交通流量。除此之外,高德还通过与新浪微博合作,发动网友实时上报交通事件信息,比如哪个地方发生了交通事故,哪个地方正在修路或有交通管制。只要有人在微博提及这些,大数据中心就能实时捕捉到关键信息,并将这些信息发布到高德地图的客户端上。通过基于Hadoop系统的大数据平台,把实时交通流量信息与交通事件信息、红绿灯延时等信息整合,最后得出一个最优的交通路线,并且预测出每条路线准确的交通到达时间。
这套系统从2007年开始,到现在已经覆盖了全国60多个城市,如果再加上社会车辆的反馈,每天会有7000万~1亿公里的行驶轨迹数据发回高德,每隔两分钟就能刷新一次。除了实时的数据分析,高德还需要对过去3个月的历史交通数据进行分析,从而总结出交通拥堵的规律性,为实时预测提供指导。
海量的道路行驶轨迹数据还为地图绘制提供了意想不到的便利。董振宁告诉本刊记者,中国地图产业的规律是强者恒强,因为中国面积巨大,城市发展太快,地理信息变动太多,每年的地图数据至少有30%需要更新,而在国外,这一数据一般不超过5%。如何能够花费最少的成本迅速找出这些变动的信息并进行更新,便成为地图制造商的核心竞争力。有了这些海量的道路行驶轨迹数据,高德就能够做到有的放矢,比如,有一条路线上留下的车辆位置信息越来越密集,但地图上显示这里并没有路,那很可能就是一条新开的道路。“未来,地理位置的信息将像水电一样成为一种基本的生活资源,可以跟购物、休闲、交通安全等领域进行合作,成为人们生活的一部分。”董振宁向本刊记者展望道,“而所有这些,都有赖于大数据的发展。”
四、物联——智慧城市
2010年4月,巴西里约热内卢发生了特大洪水与泥石流等自然灾害,造成785人死亡,13830人被迫逃离家园。作为2014年世界杯和2016年奥运会的举办城市,里约热内卢的城市安全一时陷入争议。事后的分析报告表明,之所以会暴发如此严重的洪涝灾害,是因为里约热内卢的应急管理部门一直使用老式的手动报警设备,安全预警系统老化、孤立,缺少跨部门的信息共享和执行系统。城市的天气预报系统老旧,甚至连一张宏观的灾害应急管理可视图都没有。
灾害发生后的第二个月,里约热内卢就邀请IBM公司对其城市管理系统进行诊断和重建。IBM公司首先对城市的运营中心进行了改造,然后把全市的报警系统、天气预测、现有的视频资源等信息统一整合到这个平台上,通过数据聚合,编制出一幅可视的城市运行动态地图。接着,对全市的排水管网、道路、河流以及特殊建筑进行全面统计,并在全市布置了数十万个传感器,与运营中心的无线系统连接,能够实时监测市政设施的运行情况。
2008年,老牌的科技巨人IBM提出了“智慧的地球”战略,其基本思路就是依靠布设无数的传感器,能够实时监测我们的城市运行、能源输送、生产制造等领域。IBM新兴市场部大数据中心总监王晓梅向本刊记者介绍,“智慧地球”依赖对大数据的处理,尤其是IBM研发的流计算技术。
2001年“9·11”之后,美国联邦政府与IBM研究院合作,希望后者能够为美国的敏感建筑研发一套实时监测系统,由此诞生了“流计算”技术,简而言之,就是通过对一系列复杂事件的监测、分析,来给出最后的预警。比如,美国自由女神像旁边的树影发生异常变动,监测系统马上就会给出一个判断,看还有没有其他异常发生,如果没有,很可能只是一阵风吹过;如果有,比如旁边的树却反方向活动,那说明不是风的原因,系统就会继续分析,结合其他指标来给出预警指数。
依托传感器、无线技术和流计算等大数据运行模式,未来整个城市、工厂实现无缝链接将会变成现实。一切取决于我们对物理世界的数据收集和分析,可以在生产线上实时监控每件产品的质量而不再依赖事后的抽样检查,可以在电力和石油输送网络上实时监控安全和完成智能分配,甚至可以让行驶在道路上的汽车变成一个个智能的机器人,提前躲避危险。
如果说互联网技术链接的是人与人,移动互联网链接的是人与物,那么未来的物联网链接的就是物与物——智能家庭的梦想不再遥远。只需要安装一个芯片,我们的冰箱、电视、洗衣机、空调、厨房设备等家用电器就会变成一个个智能的终端,它们记录我们日常的生活行为,并且可以进行远程控制。比如,冰箱里的鸡蛋吃完了,你就会收到及时提醒,如果你连提醒都懒得接收的话,还可以将冰箱与你的购物网站账号相连,这样快递员就会在你还没有意识到鸡蛋快吃完的时候送上门来。
五、娱乐——视频与体育
大数据正在颠覆传统的娱乐行业。在今年国庆节期间举办的中国网球公开赛上,IBM开始尝试与赛事主办方合作,采用一套名为SlamTracker的系统,它是一个在线仪表板,为正在进行的每场比赛提供统计结果和信息。球迷不仅能够实时查看每次得分,而且可以点击比赛时间轴上的一点,以查看球员的详细表现。
SlamTracker系统对过去7年大满贯比赛的3900万个数据点进行了分析,以提供选手的分析评估,以及他们如何才能赢得比赛。这套系统不仅可以帮助赛事解说员来预测比赛结果,可以帮助观众来了解球员的历史表现,更重要的是,它可以成为球员和教练员手里的一件法宝。可以想象,不久的将来,比如李娜和小威廉姆斯在决赛会师,她们打完第一局后,教练进场指导的时候会手拿着一个iPad,上面清晰显示了对手和自己的临场发挥,便可据此找出对手的弱点,调整战术。大数据和云计算在体育领域的应用已经非常广泛。无论是美国的职业棒球队还是欧洲的足球豪门,都开始用它们来分析球员的身体情况、个人潜能以及受伤风险。
Lytro相机则把大数据运用到了摄影中。与传统相机只可以记录一束光不同,Lytro相机可以记录整个光场里所有的光,达到1100万束之多。用户拍照的时候,没有必要在一开始就聚焦,只需要轻轻按下快门,之后便可以选择聚焦图像中的任一焦点。
娱乐业一直是造星的梦工厂,与普通民众保持着朦胧的距离,看似很近其实很远。传统的视频播放网站,扮演的也只是一个平台角色,但是,有了大数据帮忙,未来的视频娱乐可能要发生翻天覆地的变化。今年北美地区最热的一部电视剧《纸牌屋》,其制作背后就有大数据的影子。
作为世界上最大的在线影片租赁服务商,Netflix在美国有2700万订阅用户,在全世界则有3300万,它比谁都清楚大家喜欢看什么样的电影和电视。每天用户在Netflix上产生3000万多个行为,比如你暂停、回放或者快进,订阅用户每天还会给出400万个评分,有300万次搜索请求,询问剧集播放时间和设备。所有这些汇聚在一起,Netflix通过大数据分析发现,用户很喜欢Fincher(社交网络、七宗罪的导演),Spacey主演的片子表现都不错,而且英剧版的《纸牌屋》很受欢迎。所以,它干脆把三者凑在一起,制作出一部真正符合观众口味的电视剧,果然成为今年影视界的黑马。
但是,《纸牌屋》对大数据的应用并不彻底,它是一口气拍完才上映的。在国内,优酷网站也在展开大数据的收集与分析工作。优酷土豆集团的CTO姚键告诉本刊记者,现在每天网站上有超过5亿次的播放量,用户的每一个行为都在展现他的喜好。更关键的是,除了行为分析外,未来大数据还可以进行内容分析。比如用户在观看的时候,特意在视频的第47分钟到49分钟停留回放了好几次,那么,这两分钟的内容到底有什么特点,也许它们是一段异域风景,也许是一段浪漫的爱情表白,也许是一段赛车追逐,通过将用户行为与观看内容进行关联分析,网站就能够更精准地判断用户真正敏感的是什么。“未来视频网站不仅仅是一个播出平台,还有可能成为娱乐的制造者。”姚键说,“但这种制造并非一厢情愿,而是真正由每个人来参与完成,人人都可以成为编剧,人人都可以成为导演,甚至,如果你愿意,也可以为自己量身打造一个角色,由自己来出演。”
结语:数据会永生吗
未来,世间万物,一切皆可量化,一切皆为数据,这是舍恩伯格在《大数据时代》一书中的感慨。在接受本刊记者采访的业内人士看来,安全与隐私并非大数据时代的核心问题,因为只要法律法规到位,从技术上讲,“把钱存到银行的保险柜里总比放在家里安全”。真正的问题是,当数据主宰一切,甚至数据自身具备了生命力,我们该怎么办?
令王晓梅感到困惑的一个问题是“数据有没有继承权?”今年夏天,钱锺书书信被拍卖一事引起社会热议,但是,联想到王晓梅在美国的一个科学家朋友正在做的研究,这样的问题在未来很可能会是另外一个面目。她告诉本刊记者,这位科学家正在尝试一种“记录自己”的试验,他在自己身上贴上很多感应器,记录身体运行数据,他随身带着摄像头和录音机,记录下自己每天见过的人、吃过的饭、说过的话。一段时间以后,朋友向王晓梅演示,一个活生生的自己呈现在了电脑屏幕上——那个数字化的“他”可以像朋友一样运动、说话、微笑。如果数据足够大,甚至可以判断出他的思考方式、个人喜好、生活习惯等等。
王晓梅设想,如果未来一个人去世了,只要他保留了足够多的数据,完全可以模拟出一个数字化的自己——同样的音容笑貌,同样的思维习惯。比如在2200年的一场婚礼上,新娘子会邀请一位虚拟的太爷爷来发表一番祝词。听起来是不是挺可怕,但这项技术实施起来并不遥远,或许,这才是大数据时代的真问题——数据会永生不息吗?一切取决于你的想象力。
|