什么是企业数据平台
想要了解清楚企业数据平台,那就先把他们拆分了一一了解,一起来看看什么是企业、数据、平台。
企业,在企业内部,会决定了反馈回路短,种类繁多,相对琐碎的需求特征
很多需求,可能就是业务方走到你工位旁说一句话的事情。
另外一方面,企业内用户层级价值明显,越到高层越能体现数据的价值,即以前我介绍过数据产品两大原则之一:「数据价值体现在数据使用者手中」。
最后,市场竞争激烈,数据安全及权限也是头等大事。常见的权限模型为 RBAC(Role-Based Access Control,基于角色的访问控制),它抽象出「用户-角色-权限」三个概念,通过角色控制菜单权限,再为用户赋予相应角色,角色一般根据业务部门和领导层级综合划定。
数据,界定了产品的边界
我们思考的是怎么利用数据去优化业务,去推动业务,数据组不产生数据,只是数据的搬运工,要和非常底层的业务逻辑保持适当距离。对于日志的打印,业务库的设计等这些数据原料,我们可以根据经验提出更优的方案,但不适合去做具体的落地和执行。
很多数据 PM 在一些业务需求的实现过程中会觉得非常低效和别扭,部分原因就是参与业务需求太深,导致在数据聚合层次掺杂了太多业务逻辑,业务方稍微更改下 PM 就会非常痛苦。
平台,强调的是面向各个业务提供服务,这要求产品具备较高的标准化和抽象化
标准化指的是主动出击,定下一些关键的数据资产规范,方便在企业中流通使用,如:埋点管理、指标管理和数据库表管理等等。
抽象化则指的是不能只关注于解决一两个具体的需求点,而是关注整个面的抽象和满足,是一个由点及面的过程。
企业数据平台的目标
企业数据平台的建设目标,应当是让数据像水资源一样在企业中流动。企业如同人类建立的水资源使用系统,而数据如水。
这意味着数据要像水一样做到:
干净无毒
随用随取
场景丰富
这恰好对应数据准确、全面、及时、易用四个衡量维度。
如何搭建企业数据平台
企业数据平台搭建的整体架构可以由以下几个部分组成:
一、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,通过网页、App就可以收集到数据,比如很多银行现在都有自己的App。
更深层次的还能收集到用户的行为数据,可以切分出来很多维度,做很细的分析。但是对于涉及到线下的行业,数据采集就需要借助各类的业务系统去完成。
二、数据集成:指的其实是ETL,指的是用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。而这里的Kettle只是ETL的其中一种。
三、数据存储:指的就是数据仓库的建设了,简单来说可以分为业务数据层(DW)、指标层、维度层、汇总层(DWA)。
四、数据共享层:表示在数据仓库与业务系统间提供数据共享服务。Web Service和Web API ,代表的是一种数据间的连接方式,还有一些其他连接方式,可以按照自己的情况来确定。
五、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。
列存储让磁盘中的各个Page仅存储单列的值,并非整行的值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效的利用。
而分布式计算能够把一个需要非常大的算力才能解决的问题分成很多小部分,接着把这些部分给到许多计算机同时处理,然后把这些计算结果综合起来,得到最终的结果。
综合这两种技术,就能够大幅度提高分析环节的效率。Yonghong MPP可以说是目前在这两方面做的最出色的了。
六、数据展现:结果以什么样的形式呈现,其实就是数据可视化。这里建议用敏捷BI,和传统BI不同的是,它能通过简单的拖拽就生成报表,学习成本较低。国内的敏捷BI中,个人用户推荐Smartbi,像银行这类的企业级需求也可以使用 。
七、数据访问:这个就比较简单了,看你是通过什么样的方式去查看这些数据,图中示例的是因为B/S架构,最终的可视化结果是通过浏览器访问的。
总结
企业数据平台是个比较复杂的数据产品,而且随着公司体量上升复杂度会进一步提升。它的复杂一方面是承接了非常多的业务需求,如何抽象和管理就是一个问题。稍一不慎,不仅部门兄弟事倍功半疲于奔命,而且会产生大量无用的“报表垃圾”,整个 BI 平台就变成数据的垃圾场,焚尸堆。
最后,如果这个平台还希望能够和业务产生一些互动和助力,更得不断丰富场景,开发工具。但它作为企业管理和挖掘数据资产的抓手,在未来企业竞争中又会显得无比重要。
本文由 Smartbi 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/84953.html 。