- 采访 & 编辑 | Natalie
- 嘉宾 | 李丹枫
- 编辑 | Debra
- 微信公众号“AI 前线”,(ID:ai-front)
友盟 +CDO 李丹枫
2016 年 1 月,友盟、CNZZ 和缔元信三家各自拥有本行业强大数据资源的公司合并,组成了新的公司友盟 +,新生的友盟 + 数据体量突然倍增。截止 2018 年第一季度,友盟 + 服务 150 万款 APP,710 万个网站,每天可以触达的设备达到 14 亿,每天收集的事件数以千亿为单位,累积数据量以 PB 记。友盟 + 现在的存量一共有 55PB 的数据,如果拿一张 A4 纸,正反两面写满数字,把 A4 纸叠起来可以装 15 万辆卡车。友盟 + 的数据仓库里面有多少张数据表呢?大概是 19000 张。对于数据的挖掘、分析和运算,每天的运算量需要 2 万个计算单元,相当于 200 个地球上的 100 亿人 24 小时的不间断的运算。
骤然增多的数据量,一方面让友盟 + 在众多数据服务提供商中获得了天然的数据体量优势,另一方面,也给数据治理与整合、数据产品和数据团队的调整带来了前所未有的挑战。
日均千亿数据,如何实现高效计算?
Q:三家公司合并给数据治理与整合、数据产品和数据团队的调整分别带来了哪些挑战?你们是如何应对这些挑战的?
在产品层面: 我们开始面对的是如何整合三家公司的不同产品,这个挑战是可想而知的。我们的方法是根据客户群体对产品进行整合。 我们都知道友盟是移动互联网企业及创业者提供移动数据服务与运营工具,是国内的综合性移动开发者数据服务平台;CNZZ 是中文网站统计分析平台,客户群体覆盖中文网站及中小企业;缔元信网络数据则为互联网头部企业提供一站式数据化解决方案,三家基于各自的数据输出了很多数据产品,我们根据客户群体进行了产品的整合。面向开发者的产品,如 App 和 Web 的统计,Push 和 Share,整合到 Dplus,为开发者提供一站式统计和运营工具。服务于新零售的产品整合到 Oplus,针对广告主的产品整合到 ADplus,形成了我们的 Plus 系列数据产品。
数据整合方面: 原来的三家公司在数据服务领域是完全互补的,在数据上我们很少有共同的客户服务群体,这就给我们数据整合减少了非常多的麻烦,不必为了某些标准去把某一家的数据整合进另一家的标准。在数据整合方面,友盟 + 运用域数据打通能力,将移动、PC、线下等跨终端、多场景数据打通,让数据实现了全域整合,从而让友盟 + 真正成为了一家全域数据公司。
数据处理方面: 合并后的 友盟 + 每天大概有几十亿个 ID 的数据回溯到数据训练的平台上,为我们带来的是巨大的计算量和计算资源的占用,对于数据工程师来说最重要的是需要协助数据科学家搭建有效的数据生产环境,保证计算的稳定性。因此,数据全量更新或按需更新的选择直接决定了存储和计算资源的消耗量,也就是成本。 我们提出了“代码健康度”的概念,让数据团队一定要用最高效的方法来实现计算。尤其在数据体量巨大的场景下,比如说 100 亿个 ID,如果每个计算能提高 1%,能节省的资源是很大的。另外,在数据价值的挖掘工程中,我们也逐渐形成了一套高效的底层架构,例如数据清洗,打通后形成统一的宽表,建立 Universal User(device) Profile。绝大多数的数据挖掘和建模都基于这个 Profile。实现了和产品层面的隔离之后,产品的更新就不会影响后面的建模。我们还提供了完善的回溯功能,可以让用户的 Profile 回到历史上的任意一天(当然,有一个最早的可回溯点),这对严格意义上的建模是非常有意义的,有些场景是必备的功能,如在我们的金融风控场景中,是否可以回溯决定了模型效果的可信度。
Q:在高数据体量下,如何定义和实现高效计算?数据质量如何把关?
对于 大数据的高效计算包括存储的高效,查找的高效和代码的高效。 刚刚提到我们的表有 19000 张,55PB,显然,任何存储的优化都会带来巨大的经济效益。例如我们所做的标签 ID 化,就可以在很多表上节约 70% 的空间。高效的查找 是指对每一个生产表打标签,建立数据地图,这样我们就可以快速定位到我们想要的表。代码的高效,主要是通过建立开发规范。这么大的数据量为避免数据重复开发和浪费,我们会对代码和命名进行有效规范。还可以通过方法论,比如说如何数据分层、统一语言,索引条件优先等级划分,都需要记录在开发规范中。每一段代码都会有健康度的评分,如果你的健康度低,你运行程序的优先级就会降低。
Q:为了做到前面所说的高效计算,友盟 + 的数据体系架构设计经历了哪几个阶段的演进?能否介绍几个关键的演进节点?
第一个重要的节点就是三家的数据采集、传送和处理的整合,对我们的平台、工具、协议和底层的数据进行统一。这是我们数据打通,从而进行进一步数据价值挖掘的基础。第二个节点是实时和离线计算的技术升级,在数据量激增的情况下保证服务的稳定性。第三个节点是在数据的内容上进行整合,我们将不同端打通,内容连接,建立全域画像。第四个节点是我们在业务驱动下对数据质量进行评估,发现和解决在数据采集和处理流程中可能存在的问题,好的数据质量是我们好的服务的前提。
业务数据化,数据业务化
Q:请介绍一下友盟 + 当前的业务体系?主要包含了哪几类产品?与竞争对手相比,友盟 + 的优势是什么?
友盟 + 的业务体系我们用 “三纵两横” 来阐述,三纵中第一部分是互联网运营数据服务:Dplus,通过一站式 App/Web 数据采集,帮助开发者实现数字化运营和精细化分析;第二部分是新零售数据服务:Oplus,基于智能感知设备让线下零售商实现线下数据可追踪,同时将线上数据赋能线下,以消费者需求为导向,提升效率、降低成本、提升用户体验。第三部分是全媒体、全链路营销服务系统 ADplus,帮助广告主及代理商从触达、认知及搜索到品牌在全网的影响、关注度进行宏观监测。
两横则是:金融和手机两个行业大数据解决方案。金融行业是去年才正式开始做的,在一年的时间里取得了不错的成绩,我们从基于移动互联网数据的风控产品开始,逐渐扩展到获客营销、二次营销、贷中管理,今年还计划开发贷后管理的产品。同时在今年,我们还推出了手机行业的大数据解决方案,以 7 亿真实活跃用户的全域数据为能源,通过 15 万颗运算核心与数据引擎助力手机厂商实现从市场感知、业务与产品规划,到产品上市、上市后运营等业务流各环节的数字化转型。
对于友盟 + 而言,最大的优势是全域数据,以及数据智能的认知与能力。在全域数据方面,友盟 + 将 7 亿真实活跃消费者的 App、PC、线下等跨终端、全场景的实时数据,通过全域数据打通技术进行联结与融合,帮助企业 360 度洞察“人”,为企业与消费者通过数据更好地理解与连接:在数据智能方面,友盟 + 提出全域数据*算法*场景的理念,即通过全域数据作为企业的新能源,以数据技术与算法模型作为企业的引擎,将企业与用户接触的场景作为赛道,帮助企业从数字化全面走向智能化, 最终用数据智能帮助企业实现增长、增值和升级。
Q:你们给自己的定位是“第三方全域数据服务商”,在打通全域方面,友盟 + 遇到过哪些技术难题?是如何解决的?
刚才我提到我们的一个优势就是“全域”。“全域”的最大挑战之一就是数据的打通。我们开发了自有的数据打通算法,同时借鉴阿里的数据经验,基于全域数据能力,由于有了大量的高质量数据,模型可以达到约 80% 的 precision 和 80% 的 recall。
Q:您曾经说过“未来传统企业是重要服务客户群”,能否谈谈传统企业要应用好数据涉及哪些关键因素?
关于传统企业应用好数据大家有许多共识,比如说打破数据孤岛,管理层的支持,提倡数据驱动文化等,我在这就不一一赘述了。我想强调一点,就是打造“数据闭环”。也就是说在业务场景的每一个环节都可以收集到数据,从而可以真正实现数据驱动。举一个简单的例子,电商之所以做得这么好,是因为做电商的每一个环节都有数据支持,从而可以进行优化。再试想线下的场景,哪个货架停留的客流多,哪个商品被拿起的次数多,这些数据对于商家来说,是一无所知的。没有数据,就无法谈优化。所以,对于传统企业来讲,一定要深入思考,怎样才可以形成“数据闭环”。 “业务数据化,数据业务化”,就是说的这个道理。这个不容易,但一旦你做到了,你就会在竞争中处于优势。
Q:从友盟 + 的角度来讲,一款数据产品要取得成功,最关键的因素又是什么?
一个数据产品成功的关键因素其实很简单,是不是可以解决问题。这里有几个层面:l 第一,有没有提高效率,或降低成本,或增加利润,现在有许多数据产品是为了使用数据而不是去真正地解决问题。l 第二,你所使用的数据是不是能够解决本质的问题,许多第三方数据公司把自己的数据包装得无所不能,这是非常不切合实际的, 第三方的数据往往起到的是辅助作用,在使用这类数据产品的时候,一定要问清数据的来源、数据的特征属性,一定要能够找到数据本身和要解决问题的相关性。就像你无法用棉花造出飞机一样,每一种数据都有适用和不适用的场景。所谓“知之为知之,不知为不知,是为知也”,对应到数据的应用“用之为用之,不用为不用,是为用也”。
数据科学家要能从自己的金字塔中走出去
Q:可否介绍下目前友盟 + 的数据团队规模和团队成员的构成?主要有哪些角色?不同角色的岗位所分担的工作或职责有哪些不同?
友盟 + 数据团队有 40 多人,包括数据科学家、数据分析师和数据研发。数据科学家主要的任务是建模和对数据价值的挖掘。数据分析师承担很多 BI 的工作,同时也对数据质量进行监督,根据业务的需求,对数据进行深层的分析。数据研发负责数据的整合、加工和提取,生成底层表格、支持业务逻辑和分析建模的需求。
Q:在您看来,对于数据科学家和数据工程师来说,有哪些职业技能是不可或缺的?其中最重要的能力是什么?
首先是基本的数据提取、处理和分析的技能。从工具的角度来说,例如 SQL、Python 等;从基本的数学和统计方面包括,均值、方差、中值、correlation 等;从建模的角度来说如 LR、GBDT、CNN 等,还有对不同的模型怎样评估,包括 precision and recall、false positive、ROC、KS 等指标。
在具备了这些基本的必备知识之后,我认为 作为一个在工业界的数据科学家最重要的能力是去发现问题,建立数据和算法的直接联系,到进一步地去解决问题。 大家都认同数据是巨大的财富,可以给我们解决很多的问题,但是我们仔细看一下,真正的大数据和算法能够落地的场景还是非常有限的,特别是对于传统企业来说。最近 IBM Waston 在美国医院的受阻就是一个例子,虽然帮助医院解决了一些问题,但代价是高额的成本。我在前面提到一个数据产品成功的关键是“提高效率,或降低成本,或增加利润”。数据科学家也要有这种思路,要能够从自己的金字塔中走出去,去了解和理解业务, 这是我认为在工业界的数据科学家的一个非常重要的能力。
数据与智能
Q:AI 火了之后,有人调侃原来做大数据的现在都说做 AI 了。我们都知道最近这一波 AI 浪潮的兴起离不开大数据,您认为近几年 AI 的发展反过来给大数据领域带来了什么样的影响?随着 AI 的普及,大数据领域发生了哪些变化(包括技术方向、应用方向等)?
这个影响是巨大的,在 AI 浪潮兴起之前,大部分人理解的大数据应用(实际上也确实是这样的)都是 BI(business intelligence)。BI,简单讲就是向过去看, 统计过去所做的事情和造成的影响,统计报表出来之后,我们再根据历史进行对未来的决策。注意,这里的关键点是“我们”,这里人是决策者。而 AI 是向未来看, 机器取代了人做决策,机器人客服、人脸识别、到自动驾驶等等,都是这个场景。
今天的 AI 的三大要素是“数据”、“算法”和“算力”,而在这三大要素中,很多人(包括我)都认为“数据”是最重要的因素。这是因为现在的 AI 模型的结构都包含大量的参数,而要让算法学出这些参数,就需要大量的数据。现在 AI 的普及,使得大家进一步认识到数据的重要性, 这是最显著的变化。对于技术来说,怎样采集(如 IoT),存储和处理(如 Hadoop、Spark、Flink),建模(如深度学习),甚至于 AI 芯片等大数据相关的技术都有了很大的发展。在应用方面,许多行业也开始进入(医疗,教育)或者更深度地介入(金融)大数据和 AI。
Q:友盟 + 在公司内部以及对外提供给客户的产品中分别是如何应用人工智能技术的?能否举几个例子?
友盟 + 的数据是关于互联网和移动互联网的运营数据,所以我们主要的工作是围绕怎么去建立设备行为的模型,如果有业务场景需要设备行为的信息,我们的模型就有可能得到应用。友盟 + 的反作弊应用就是非常好的例子,由于有了设备行为偏好,我们就可以去衡量一个设备的质量,通过归因算法、智能反作弊等技术,帮助客户获取真实流量。
Q:您在美国数据分析和挖掘领域工作 10 多年,曾任职于包括雅虎,微软等公司。您认为中美在大数据技术和应用两个层面存在哪些不同之处?
在技术层面个人感觉美国还是有一些优势的,他们有很多的公司会去做非常长期的底层的工作,学校和公司里的研究院的资源比较丰富,也有不少可以安心做研究的人。
在应用层面,中国有非常大的优势,我们有非常大的用户群体,大量的用户带来了大量的应用场景。
Q:您认为大数据领域当前最有待突破的地方在哪里?下一阶段大数据的主要发展方向是什么?
我认为大数据领域最有待突破的是:模型的可解释性。现在的人工智能都是所谓的“弱”人工智能,是利用大量的数据,训练一个参数众多的黑箱模型。这个模型是在建立输入和输出的“相关性”,而不是“因果性”。比如,你打着雨伞和你的鞋湿了,这两个事件是“相关”的,也就是说经常会在一起发生。但是打伞并不是鞋湿的原因,下雨才是鞋湿的原因,所以下雨和鞋湿才是“因果”关系。为什么因果关系这么重要呢?是因为这是我们理解世界,从而进一步改变世界的方式。我们知道了植物是怎样生长的,才有了万亩良田;知道了电和磁的相互转化,才有了万家灯火;知道了鸟儿是怎样飞行的,才有了飞机翱翔在天空。同样,真正的智能,是能够帮助我们找到因果关系的模型,在很多的应用场景,可解释性也是非常重要的,例如,金融场景中,我们要知道为什么可以给这个人贷款;在医疗场景中,我们要知道为什么会做这样的诊断等等。
当然,模型的可解释性可能需要相当长的时间。当下,我认为大数据主要的发展方向是在更多的领域找到真正落地的场景。现在在互联网,金融应用得不错,在医疗、教育也有好的开端。我们希望可以在更多的领域可以找到大数据的解决方案,标准是“提高效率,或降低成本,或增加利润”。
采访嘉宾介绍
友盟 +CDO 李丹枫
带领友盟 + 数据科学团队基于设备行为数据建立风控数据模型,成功打造了互联网金融风控解决方案。同时致力于在数据中摸索新的算法或者模型,对不同领域进行数据创新。
在美国数据分析和挖掘领域工作 10 多年,曾任职于包括雅虎,微软,FICO 等在数据应用走在前沿的公司,积累了丰富的数据挖掘和机器学习的实战经验。
本文为专栏文章,来自:AI前线,内容观点不代表本站立场,如若转载请联系专栏作者,本文链接:https://www.afenxi.com/57465.html 。