张建锋:为什么说阿里巴巴是一家大数据公司

「不论是人工智能还是其他前沿技术,都离不开高质量的数据、强大的计算平台和高效的算法平台。只有将这三件事放在一起,才能真正在机器学习和人工智能领域取得突破。」

张建锋:为什么说阿里巴巴是一家大数据公司

编者注:本文来自于阿里巴巴集团 CTO 张建锋,极客公园根据其在阿里巴巴西雅图技术论坛的演讲有所整理。

「不论是人工智能还是其他前沿技术,都离不开高质量的数据、强大的计算平台和高效的算法平台。只有将这三件事放在一起,才能真正在机器学习和人工智能领域取得突破。」

8 月 6 日,阿里巴巴在西雅图举办了一场技术论坛,400 多名当地的技术人才参加了这次活动,同时,这也是阿里巴巴 CTO 张建锋第一次在美国分享阿里巴巴的相关技术战略。

张建锋花名行癫,加入阿里 12 年,亲历了淘宝、天猫、聚划算组成的中国零售平台一路发展成全球最大的电商平台。曾带领过多个技术团队,也担任过中国零售平台事业群的总裁,今年 4 月被任命为集团 CTO 。阿里 CEO 张勇曾表示,张建锋是「为数不多的兼具技术和商业背景和经验的领导者」。

以下内容是极客公园根据其演讲整理而成。

关于电商

阿里巴巴的最早的核心总结起来,其实就是买家和卖家的平台,细分一下就是 1688.com 和 alibaba.com。

1688.com 解决的是国内企业间采购的问题。alibaba.com 做的则是把中国商品销售给国外,并提供渠道让国外订单交给国内生产的生意。

到 2003 年之后,随着互联网的发展,阿里巴巴的业务也产生了发展。前两个业务都是 B2B(business-to-business),而在那之后我们想开展一个 B2C(business-to-customer)的业务。于是我们就创办了淘宝,也就是现在阿里巴巴零售业的主体部分。

张建锋:为什么说阿里巴巴是一家大数据公司

阿里巴巴的电商业务

和 eBay 的拍卖模式不同,淘宝采用的是一种全新的、小商家的零售模式。淘宝的很多小商家都具有独立的设计能力,而且能够快速地向后整合供应链,做出产品。而在美国创业,即便你已经有了很好的创意和设计,实施起来也不太容易,因为单单是找一个合适的制造商就不太容易了。这种制造业带来的不同的商业环境就是这两个国家间的巨大差别。这个差别使得两个平台的商业模式截然不同。虽然看上去大家都在做 to C ,但是本质上是完全不一样的。

淘宝之后我们又做了天猫,天猫也是一个 B2C 的业务,但是它却给所有小微企业提供了一个低成本的品牌传播渠道。以前大家创业,哪怕开一个最简单的实体店也需要几万人民币,覆盖的区域还非常小。但有互联网这个模式之后,你开店的成本、零售的成本可能会一直降到零为止。这就是我们最核心的电商体系。

关于生态

从电商向外扩展,就是我们的投资板块,以及和我们关系比较密切的企业。包括菜鸟、优酷、UC 浏览器、高德地图、微博、阿里妈妈、蚂蚁金服等等。我主要谈谈菜鸟、和蚂蚁金服。

菜鸟是我们提供物流的基础设施,包括仓储、配送等等服务。但是还是采用了生态的模式,菜鸟本身不提供配送的服务,而是联合了外部的快递公司一起合作。

张建锋:为什么说阿里巴巴是一家大数据公司

蚂蚁金服则是中国目前线上最大的支付服务的提供商。也是一个金融创新的金融服务提供商。蚂蚁金服每天支付的量已经超越 Visa 的,我们有信心在几年后成为全球最大的支付公司。蚂蚁金服现在在全球开展业务,在很多国家现在都可以直接用支付宝支付,不用带信用卡,也不用担心汇率的问题。

现在的淘宝已经不仅仅是一个零售的公司,也是一个生活的平台:除了能在淘宝上选购商品,还能在上面订购其它东西,比如电影票、机票、旅游订酒店等。今天我们在国内和一万多家宾馆达成了合作,你离店时不需要去柜台,也不用交押金,因为它会根据你的信用的状况来给你一定的授权,我们会根据你的数据,计算出信用状况,对你的信用进行担保。如果真的有产生消费,支付宝可以直接代扣。

关于大数据

业务讲完之后,我们来说说为什么我们是一家大数据的公司。

今天,大数据做的最好的,都是些平台性的企业,比如 Facebook 和 Google ,因为他们有比较丰富以及高质量的数据。但有些做工具型的企业,在这波浪潮中要面临更多的挑战,比如 IBM ,微软等。这波浪潮中,大数据是核心,而谁拥有这些大数据,就非常关键。

阿里的优势在于我们的数据不仅海量而且种类繁多,比如说社交的、商业的,以及其他行为的数据,可以说阿里拥有的数据含金量特别高。为什么呢?

张建锋:为什么说阿里巴巴是一家大数据公司

第一,阿里的数据,是用户通过购买行为投票产生的,这个投票对应的是每次的交易行为,是非常真实的。

第二,社交网络的数据是很难结构化的,而在淘宝上,商品的描述高达一百多个维度,所以阿里的数据是高度结构化的。

第三,我们有非常实时的行为,平常不管是在无线端还是 PC 端,阿里都有超过一个亿的人在访问,所以总体的行为非常密集。

这几个条件,对于大数据的发展,是得天独厚的。其次,我们从外围部分,像优酷、微博等平台,也整合了很多社交数据,形成了比较独特的数据。

除了数据,我也想谈谈算法。其实算法并不是一件孤立的事情,我不认为在实验室中就能研究出一个非常高效的算法。因为在行业里,有非常多的应用场景,而且应用场景和和公司的业务规模也是正相关的。

比如 Facebook 的核心业务是广告,所以他们广告的算法是远远领先于其他人的。像 Google 也一样,因为他的场景、数据、计算,已经决定他的深度比其他人更深。阿里是个另类的公司,我们有非常多种类的业务场景。所以阿里认为,数据、计算平台和算法的结合,是未来非常重要的趋势。

关于云计算

目前阿里云是中国最大的云服务提供商。我们也是最早提出云计算这个概念的。七年前我们就意识到了,计算作为一个资源,一定是未来的一个方向。

为什么是阿里能预测到,而不是其他公司呢?我觉得这是一个非常有趣的事情。因为阿里一直做的是一个平台化的的业务,并不是自己在上面做。所有的参与者卖的商品都不是阿里拥有的,而是有非常多的卖家在上面经营。

交易平台既然能变成一个共享的事情,那么计算能不能成为一个共享的事情?基础设施能不能也成为一个共享的事情?所以我们是比绝大部分公司更早意识到,计算可能会变成象水电煤一样的基础服务。我们坚持了很多年,一直到去年,云计算在全球有了一个大规模的爆发,在中国也不例外。

然后在这个基础之上,有很多传统行业都面临两个问题,第一怎么把基础架构,从传统的架构变成一个云的架构,这个里面有很多思路和门派。有些人一步上云,把所有的东西都搬到云上。但是在中国,大多数是先把企业的架构云化,然后平滑的迁移到公有云,或者变成混合云。所以第一步一定要解决,如何平滑的把传统架构变成一个云的架构,很关键。

张建锋:为什么说阿里巴巴是一家大数据公司

第二,怎么把原先没法计算的数据,或者没有意识到的数据,通过云发展起来。这里面又有两个问题。第一个,如何在新的算法平台下,把自己的数据效率最大化。第二个,我们的数据能不能参与一个公共的交易。比如说我有一个数据,能不能参与和其他人的数据进行融合。有些数据不融合是没有价值的。

我举一个例子,比如说气象消息的数据。如果孤立的看气象数据,很难产生很大的价值,无非是,在气象的预测上产生一些价值。但是气象消息要是和农业,或者和某些其他行业结合,可能会产生更大的价值。今天,我们很多的图像视频位置等数据,能不能规划整个交通、基础设施、对出行产生一定的价值?这个也是目前热门的话题。

关于未来

所以今天的中国,特别是象阿里巴巴这样的大数据公司,我觉得机会是多于挑战的。今天我们面临数据大爆炸,人工智能以后,科技兴起的时代。科技兴起有两个重要的特征。第一个呢,首先是提升效率,比如投放广告的效率会大幅提高。第二呢,是真正的产生或者改变新的商业机会,产生创新。目前为止,大数据做的还不够。大数据最先会改变哪些行业呢?我们认为现在依靠经验起步的行业都会发生变化,比如说智能问诊、智能投顾。

除此以外我们在基因、疾病的筛选这些方面,也都在做一些初始的工作。大数据总有一天会改变整个行业。这是我们坚定不移的一个想法。这个世界发生了非常大的变化,超出了我们的想象。

最后,我想展望一下我们的未来。比如对阿里的电商平台来说,目前很热的 VR 、AR 意味着什么?为什么这么多人愿意做 VR 、AR ,在我看来,不管科技多么先进,我们以前都生活在一个二维的空间。未来的趋势会让我们生活在一个三维的世界,让我们对世界的理解更深入。

VR 、AR 只是一个初始,这个后面有太多的技术、数据的问题要去解决。我觉得 VR 、AR 发展到现在这个阶段,只是开了一扇门,影响着某些特定的领域,目前它的成本代价还很高,而且 VR 不适合长时间佩戴,时间长了会让人感觉不舒服。 AR 是更大的一个进步,我们能从一个三维的世界看到真实的东西。从二维到三维这个潮流是不可阻挡的,向更真实的世界迈进。但这个时候,你要有更多的场景,更多的技术平台去处理这个事情。

目前很多人都在研究 VR 、AR ,也有很多人在研究无人驾驶。但我们也知道,技术方向是很多的。他怎么能聚焦某一个方向深入研究,这个是要由场景来驱动的。现在有个问题就是,目前太多的人工智能技术,爆发性的出口是什么?到底是不是自动驾驶、游戏 VR ,或其它的东西?大家都在探索,都没有一个明确的答案。那谁能获得成功的呢?我觉得是那些对消费的趋势,对数据和场景规模化有研究的人。

这是就是我们整个的一个方向。今天阿里巴巴,从电商做起来之后,规模了数据,把场景拓展外延了之后,这就是一个很宽的布局了,它远远超出了一个电商的范畴。我们在云上、智能设备上,在这个基础的物流上、视频上、健康上,做了布局,取得了一些不错的成绩。这就是我们今天整个业务和技术之间的关系。

来源:极客公园

链接:http://www.geekpark.net/topics/216351

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
大数据精选的头像大数据精选编辑
上一篇 2016-08-10
下一篇 2016-08-15

相关文章

  • 大数据舆情分析:《人民的名义》如何圈粉“90后”?

    相信最近大家的朋友圈被一部红透了大半个中国,收视率和口碑同步爆棚的神剧霸屏了,没错,就是《人民的名义》

    2017-05-02
    0
  • 漫谈:机器学习和数据挖掘中一些常见的距离公式和相似性度量方法

    在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0   …

    2016-03-16
    0
  • 2015年度大数据应用经典案例Top100

    当下,”大数据”几乎是每个IT人都在谈论的一个词汇,不单单是时代发展的趋势,也是革命技术的创新。大数据对于行业的用户也越来越重要。掌握了核心数据,不单单可以进行智能化的决策,还可以在竞争激烈的行业当中脱颖而出,所以对于大数据的战略布局让越来越多的企业引起了重视,并重新定义了自己的在行业的核心竞争。 在当前的互联网领域,大数据的应用已十…

    2016-01-23
    1
  • 关于TensorFlow你应该知道的9件事

    TensorFlow 是一个机器学习框架,如果你拥有大量的数据,或者你正在学习人工智能最先进的技术:深度学习(可参阅《Step-by-Step Deep Learning Tutorial Walkthrough》https://github.com/kozyrkov/deep-learning-walkthrough ),那么,TensorFlow 可能就是你趁手的兵器。它处理的是特别大的神经网络。从某种意义来说,它就是数据科学中的工业车床,而不是瑞士军刀。这意味着,如果你要做的是通过 20×2 的电子表格生成一条回归线,那么你很可能不需要再读下去了。

    2018-08-28
    0
  • 鄂维南院士:发展大数据最大瓶颈是人才

    日前在京举办的“中国国际大数据大会”上,中科院院士、北京大学教授鄂维南表示,中国大数据的前景非常广阔,市场非常大。但如何把这个广阔的前景变成现实,现在还面临数据质量不高、数据流通不畅、数据分析存技术问题等诸多瓶颈,“但最严重的还是人才问题”。

    2015-11-07
    0
关注我们
关注我们
分享本页
返回顶部