摘要:吴甘沙表示,通过开放数据,数据市场,开放的基础设施,开放的社会化的分析,再加上无数创意人士跨界碰撞,就能构建数据生态。
英特尔中国研究院院长吴甘沙
财经网讯 “大数据过去几年经历了过热期,现在是在期望的破灭期,但期望破灭期不是坏事情,它会让市场帮助对这个生态环境做一次清洗,让真正的强者真正起来。”11月18日,英特尔中国研究院院长吴甘沙在“《财经》年会2016:预测与战略”上如此表示。
吴甘沙指出,真正的强者是能够利用数据生态进行创新的人。而关于数据生态,他认为主要包括三个方面:数据源、数据创意者以及数据分析处理的基础技术和设施。
具体来讲,首先,数据源分为两个来源,一是开放数据,二是数据市场。开放数据来源于政府、科研机构以及企业;数据市场则是那些不愿开放数据的企业,不开放的原因是出于安全和变现的考虑。
其次,数据创意则是指运用跨界思维创造性地挖掘和运用大数据。例如运用大数据预测机票的价格同时提供价格保险服务。
第三,数据分析处理的基础技术和设施则包含开放的基础设施和开放的数据分析两个方面。开放的基础设施主要指云计算,而开放的数据分析则是指社会化的数据分析平台,比如美国的Kaggle。这些社会化平台上的普通开发者开发出来的算法有时甚至比专业机构强很多。
吴甘沙最后表示,通过开放数据,数据市场,开放的基础设施,开放的社会化的分析,再加上无数创意人士跨界碰撞,就能构建数据生态。
以下为吴甘沙发言实录:
吴甘沙:今天的主题是概念到现实,中国的大数据元年就是在2012年,过去3年里面确实有一些人跑马圈地,有一些人是创造概念,有一些人是高举高打。现在确实应该要沉淀下来谈谈现实的时候,其实大家熟悉Gartner技术成熟度曲线,又叫做炒作周期的曲线。大数据过去几年经历了过热期,现在是在希望的破灭期,大数据是不是过气了现在有新概念出来,人工智能,中国制造2025。这样一个期望破灭期不是坏事情,是会让市场帮助对这个生态环境做一次清洗,让真正的强者真正起来。真正的强者是真正能够利用数据生态进行创新的强者。
今天可以讲一讲数据生态,特别是数据生态这样一种开放式的创新。数据生态一般包括三个方面。第一,数据源提供数据;第二,数据创意者,以天外飞仙式,从数据当中提取价值出来,数据创意者又依赖于第三个方面,也就是大数据的处理和分析的基础技术和设施。大数据的开放式创新在生态这一块儿是围绕这三个方面。
首先说一下数据源。有两个数据源。第一个开放数据,第二,数据市场。开放数据又来自两个方面。第一,来自于政府,以及是一些科研机构,这些数据是在纳税人的支持下收集存储下来的这些数据。又不涉及到国家的机密。原则上面来说是开放出来,作为一种公共的数据资源。另外一个方面开放数据就是来自于企业,这些企业希望能够围绕着它们的数据建立一个生态系统。数据开放面临很多的问题,有数据传输的问题,有数据敏感度的界定问题。还有数据脱敏的问题。在技术,在法律,在商业模式,在行业自律等等方面的推动下开放数据一定是我们大数据开放式创新最早的一步。在美国开放数据已经是经历了很多年了,确实在开放数据上面产生了很多很多好的数据创意。我经常在讲一家公司,叫做气侯公司。
气侯公司在被孟山都收购以前,是10亿美金,凭什么凭着开放数据和数据思维。所依赖的开放数据就是气象数据,卫星遥感数据,美国60年的农作物产量数据,还有1500亿土壤数据,土壤的观察数据。拿着这些数据做分析,一个可以分析出来种什么样子的农作物好。第二,可以对每一块2.5英里土地进行建模,可以预测灾害性天气。他把气候学、金融、保险、融合在一起,基础就是开放数据。开放数据就是创建一个开放式创新生态系统的第一步。
当然,开放数据还不够,还有第二个数据源:数据市场。现在大多数数据都是在企业里面。他不愿意把数据拿出来,有两个原因。第一,对于数据安全的考量。第二,拿出来了不知道怎么来赚钱,真正来变现。这样一个数据市场就是考虑这两个方面,帮助大家把数据从孤岛里面拿出来。现在有很多市场,有的是下载数据,有的原始数据,有的是加工信息,有的可能是通用的综合的数据市场,有的是提供专业领域的数据服务。我觉得下面的发展可能是会改变现在这种数据交易的简单的模式。这个过与简单交易者是数据提供者,又是数据的请求者,不是一次简单的交和得,是把数据融合产生新的价值。一个就是数据安全需要保障。第二,数据市场跟云计算就可以了,没有使用就没有交易,因为是数据的价值,在没有使用之前是没有办法去判断。他的数据是在使用以后确定那个价值,数据定价跟数据市场跟云计算是会结合起来。这一块未来是一块非常大的市场。这个市场部可以简单地想象成股票市场那么简单的交易,要想象成为跟使用跟价值提取合一一个数据交易。
第三,又有两个方面,开放基础设施,还有就是开放的社会化分析。在美国看大数据的创业公司,很多公司都是特别小,就是几个人都是PhD,他们主要是有一个数据的思维,有一个创意。又从开放数据拿到一些数据,但是不用去解决大数据的基础设施的问题。就是几个人不会去搭那个。他们都是通过云计算来获得这样的基础设施。所以,大数据跟云计算一定是不可以分开,未来大数据一定是生在云里面,长在云里面,产生价值也是在云里面。刚刚老师讲到了癌症,关于癌症再讲一下。我也特别关心癌症,因为一半的男性会有概率患癌症,三分之一的女性患癌症。过去50年,治愈率提升只有7%到8%的样子,我也是特别关心。我有一个同事,他是患肾癌23年,一直没有办法解决。换了肾没有办法解决,就是希望通过基因组学等等分析去解决,它花了三个月的时间做基因的测序,以及发现那个治病的基因。这些数据的产生就是这么多的数据。他就把它存在硬盘里面,一路颠簸,让不同的医生对他进行诊断,最后形成一个个性化的治疗方案。所以,这个又花了4个月。所以,他等了7个月解决了这个病症的问题。
这个里面的问题一个是数据运来运去,这个可以通过云计算获得。另外就是计算。癌症这种基因组学的分析是典型的高性能计算,又是大数据分析,不是所有人都是有这样的基础设施。所以,他通过这样一种开放的基础设施解决了分析的问题。我们现在有一个愿景2020年我们一个人来到这样一个研究所,一天之内能够对他的基因做全部的测序,发现治病基因,并且开发出个性化的治疗方案。所以,这个就是大数据开放的基础设施。还有就是开放社会化分析,现在数据科学家是21世纪最性感的职业。这些数据科学家的技能劳动和时间也是一种资源,可以通过共享经济获得。
举几个例子。美国有一个Kaggle平台,有一家基金公司,是做教育的,他有一些数据。学生写了很多的文章,希望有一个算法,能够对这些文章能够做自动地评分,未来MOOC这样平台是需要自动化平台技术。所以,找了10几家专业教育机构做这个评分。做完以后不是很满意,他就到Kaggle社会化平台上面寻找帮助。结果出人意料,这些社会化普通开发出来的算法比专业机构强很多,前三名,一个是美国的本科生,是学机械工程;第二名斯洛文尼亚学生;第三,新加坡一个中年大叔,是搞保险精算的。第一名第三名刚刚在MOOC上学完数据分析进行的学习。所以,高手在民间,如果有这样的社会化分析的平台是可以帮助很多无名人士成为这个世界上面真正能够帮助别人解决问题的高手。就是靠开放式社会化的分析平台。另外一个方面,对于企业来说也是非常有用。给大家讲一个故事。美国有一个初创企业,做旅游的应用。缺少一个算法,希望在照片当中找出那些用户喜欢的照片,但是,公司只有两个科研人员。一个是CTO,一个是开发人员。没有办法,所以,花了5千美金到平台上面去征集算法,5000美金找了400多只团队给他做。最后是找到了一个算法,靠这个算法拿回240万美金的风险投资。
这样一种开放式社会化分析解决数据科学家缺乏的问题。这个是数据的处理和分析的这一块。
第三块,数据创意。数据创意是需要跨界这样一种思维,刚刚就是气候学农艺学加那个就是跨界。还可以抽取出很多的东西出来,其实刚刚那个里面预测灾难性的气侯。这样一种预测分析跟保险往往是可以弄在一起的。美国还有很多这样的案例,有一家公司是做机票价格的预测,提供服务的时候还顺便说你可以买一个保险,假如说,我预测给你说,这个时候是最低价,买了以后,一个礼拜以后又跌,这个保险就可以索赔。所以,预测分析跟保险。还有一家公司,是预测社会上很多商品的价格,什么时候买照相机最便宜,同样也是付了一个保险。所以,金融是一种跨越时空的价格交换。通过大数据的分析是可以发现这样一种跨越时空的价值剪刀差。两个一结合跨界就是产生了新的价值。
我想说数据生态,包括这三个方面。我们可以通过开放数据,数据市场,开放的基础设施,开放的社会化的分析,再加上无数创意人士跨界碰撞产生的这样一个数据生态。我就讲这些谢谢。
《财经》年会2016:预测与战略 由《财经》杂志、财经网主办,于11月17日-19日在北京举行。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。