关于作者:杨滔,桃树科技(TaoData)创始人,专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士,悉尼科技大学博士后。曾任阿里巴巴集团数据科学家,建立淘宝网数据科学团队,首创聚划算爆款模型。曾任F团首席科学家,建立F团数据化运营体系。
在数据科学七剑中,我将“问题定义”放在第一剑,这是非常重要却往往最容易被忽略的一剑。兴致所致,今天再继续砍一砍“问题定义”。
数据科学离不开人机协作,而在这个协作中“问题定义”这一剑尤其依赖于数据科学家的主观判断力,是人最需要深度参与的数据科学环节。
问题定义这个环节如此重要,而现实中卓越的数据科学家却如此稀缺。我们不禁思考,数据科学家的能力是否可以被大规模复制?
在多年的数据科学研究与商业应用中,我一直没有停止过对这个问题的锤问。
今天,我可以这样回答:数据科学家的智慧是具备复制性的。当问题定义的能力被复制,加上高度自动化的数据科学流程,每个人都可以成为数据科学家。
然而,让数据科学家问题定义的能力被大规模复制,并非易事。
数据科学服务体系
数据科学家问题定义能力的批量复制和大规模传播,需要一个完整的数据科学服务体系。这个数据科学服务体系的核心,就是让客户理解数据科学的过程——帮助客户理解数据的价值点,并将数据创造价值的技术原理翻译为通俗业务语言的过程。
在理想世界中,数据科学家常常希望建立一个超级智能机器,让数据科学整个流程完全自动化。然而,数据创造价值的流程是冗长的,有一些环节可以依赖算法实现自动化,而有一些环节则需要服务体系将其过程逐渐简化。逐渐两字在这里是关键。
对于客户,首先关心的不是数据科学或者人工智能,或者说至始至终他们都不关心,他们只关心数据到底能用在什么场景产生什么作用。
数据科学家的首要职责,是帮助客户在具体的应用点中创造价值。其次,数据科学家需要帮助客户理解多个应用点背后的通用性,建立一个行业内通用的数据科学引擎。意在帮助客户实现自主数据科学服务,让一个一个的客户既可以理解也懂得运用数据科学引擎去创造实际价值。
当行业通用的数据科学引擎让客户成为了数据科学家,由点及面,数据科学机器人就一定会在这个特定行业内普及。
在这个过程中尤其值得注意的是,首先,数据科学家需要自己定义问题,并让数据科学团队为企业解决问题;然后,通过业务经验的积累及企业的反馈,数据科学家再建立行业通用的数据科学引擎,让客户自己定义问题——即将数据科学家的能力传递给非技术团队。这二者的顺序不能颠倒,不然适得其反。
一个数据科学家服务企业容易,而数据科学服务体系的建立,则需要将行业中的数据科学应用场景进行分解,构建一个完整的培训体系。这正是体现一个数据科学家技能高低的分水岭。
行业应用
AI技术的第一个突破口,不是风头最劲的互联行业,也不是高科技行业,而是传统行业。
传统行业业务相对稳定,存在明确的业务目标和应用场景。相对稳定的数据最适合机器学习技术来提高效率。相比而言,互联网公司都在寻找流量,业务天天变,业务一变数据模型也就失效了,AI技术产生价值的难度较大且ROI(投入产出比)很低。
在传统行业中,有许多问题是可以用数据去解决的。当传统行业业务效率被大数据大幅度提升,传统行业未必惧怕互联网企业。
互联网本身也是传统行业提升自己运营效率的工具,但正因为流量来源的垄断,所以互联网技术并没有真正提升传统行业的效率。而内嵌在传统行业内部的数据科学引擎,将是传统行业提升效率的一大利器。
这世上最痛苦的事之一,就是看着自己亲手做起来的事业每况愈下,许多传统行业的老板总有这种说不出的痛……“传统行业业务+人工智能技术”将是挑战互联网的复仇者联盟。
传统行业技术服务商的核心准则往往是“定制化”。只有依赖定制化,才可以获得传统行业的渠道资源,于是渠道资源一贯反向控制技术。正因为如此,传统企业服务的技术提供商往往都缺少真正意义上的产品,陷入无法规模化发展的困境。
而AI技术,正是让拥有渠道的服务商大幅度提升服务ROI的手段。
听起来很美的事情,往往更不容易。AI几经潮起潮落,大数据概念被炒的热火朝天,但是数据科学的落地应用成功案例,却倍显高冷单薄。
AI技术让企业服务产品规模化复制的核心正是数据科学家问题定义的能力。而人工智能技术在应用上的发力,需要经过一个很多“人工”,而且不怎么“智能”的过程。(这一问题的详细讨论,可参见桃树公众号(桃树科技)原创文章——“人工智能的应用:如何打破“有多少人工,才有多少智能”的魔咒”)
这个过程需要从一个一个点上入手,需要帮助企业从一个一个具体的应用场景中建立数据科学体系,帮助企业寻找一个又一个数据创造价值的突破口。这个问题定义的能力的普及和服务体系的建立,才是大数据落地的第一站。
无论前方多么光明,万里征途从来都是一步一个脚印走出来的。
让人人都成为数据科学家
“让人人都可以是数据科学家”,是我创业的初衷。我坚信这将是数据科学的未来。
在行业应用的过程中,卓越的数据科学家首先将问题定义能力传递给更多数据科学家,进而通过他们让客户逐渐理解大数据如何应用。当客户充分理解了数据科学原理,客户中的基层人员也就具备了定义数据科学问题的能力。数据科学知识配合高度自动化的数据科学工具,人人都可以成为数据科学家。
从这个角度来说,卓越的数据科学家,应该是让数据科学家技能平民化的导师,同时还是通用大数据产品的构架师。
企业最终会出现一道大数据生产线,数据是这个生产线的材料,而生产线上的使用者正是企业内完成了数据科学培训的业务人员。
数据侠
当企业拥有大数据平台,当人人都成为数据科学家之后,那些卓越的数据极客是否就应该退场了呢?
他们,注定不甘寂寞。
卓越的数据科学家让所有人都成为数据科学家,而他们自己则会再一次转身,寻找新的问题,寻找大数据让世界变得更加不同的创新解决方案。
数据科学家改变世界的方式不仅是编写代码,而是寻找新的数据解决问题的痛点。在探索的过程中,他们往往会持续关注新的数据源,并在已有的数据源中不断尝试提高数据的利用率。
对数据更好的利用,是一个数据科学应用不断循环上升的过程,我将之称为数据科学七剑的第二剑——数据准备。
敬请期待……
来源:桃树科技 授权发布
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。