海量数据的交换是当今大多数业务流程的关键,它能够大规模地实现创新的客户体验。然而,将干净无瑕的高质量数据快速传送到需要的地方——无论是内部系统还是外部合作伙伴——对数据团队来说是一个巨大的挑战。而要实时完成这一过程更是复杂得多。要安全、可靠且快速地传输数据,需要良好的数据治理,但为了确保数据在组织内通过实时分发得到良好治理,需要什么样的框架?
在Capital One,我们十多年前就启动了一场技术转型,要求我们在云端现代化我们的数据生态系统。我们已经构建了一个中央的、基础性的数据显示生态系统,并将持续优化。这一生态系统使公司各团队能够在整个组织中利用和共享经过良好治理的数据。在现代化数据生态系统的过程中,良好的治理发挥了至关重要的作用,而这一点在当下显得更加重要。
以下列出的最佳实践可以帮助公司通过实施具有内置数据治理功能的中央数据标准和平台,让团队以良好治理的方式利用数据。
1. 构建集中式自助门户
为了确保数据在整个生命周期中始终得到良好治理,首先需要创建一个集中式数据枢纽,统一管理分散的存储库数据。通过这个门户,可以建立多个数据管道,并设置规则、限制和策略,包括数据访问权限、数据流速(如是否进行流传输)、模式强制执行以及数据质量管理。
集中式自助门户不仅能将所有数据源虚拟化为一个统一的数据层,还为组织提供全景式的数据视图,使用户更便捷地访问和使用数据,同时强化数据访问、隐私和安全治理。
这种门户是实现企业内部数据联邦分发的核心工具。
2. 建立服务质量治理(QoS)
无论是实时数据共享还是异步数据共享,确保数据遵循基于敏感性和价值制定的治理标准非常重要。
- 灵活治理:即使当下不需要实时访问的数据,将来也可能变得关键。因此,数据治理应从生命周期的初期开始严格执行,包括数据质量监控、数据溯源追踪和安全控制。
- 高效共享:通过前期的治理和控制,数据集可以随需求变化快速被提取和共享,避免未来高成本的重新设计。
3. 一次发布,正确发布
强有力的数据治理确保数据通过正确的规则,在正确的时间传输到正确的位置。
- 规则和可见性:制定清晰的数据发布规则,包括数据发布的时间、位置以及适用的应用程序。同时,建立监控和可观测性功能,确保数据能在需要时准确交付给关键用例,无论是实时还是异步。
在 Capital One,我们利用实时数据来检测欺诈和实现快速安全的交易,而批量数据则用于支持大规模的 AI 和机器学习场景。
4. 实现数据的可追溯性和可审计性
透明性是数据治理的基石。团队需要通过监控和审计所有数据流:
- 合规检查:确保遵循治理框架,识别潜在问题。
- 效率提升:通过数据追踪保障数据安全,并不断优化管理流程。
集中式数据枢纽在这里再次发挥作用,它不仅提供细化的发布和订阅功能,还使数据所有者能够监控数据集的共享情况。通过设置服务水平协议(SLAs),例如数据新鲜度需求,可观测性工具还能帮助监控数据管道是否满足这些标准。
5. 投资于合适的存储
实现大规模数据共享的关键是投资于合适的存储和基础设施。
- 分层存储:并非所有数据都需要存储在高性能(高成本)的仓库中。不需要实时访问的数据可以更经济地存储在数据湖中。
- 动态调配:通过智能治理机制,根据访问需求和用例智能地跨存储层移动数据。服务质量标准(QoS)和SLAs应明确延迟、保留时间和成本容忍度。
此外,为平衡成本与性能,应确保所有数据附有良好的元数据标签(如保留期限、最近访问时间、使用模式等)。元数据可用于自动调整存储层级:高频使用的数据保留在高性能存储中,低频数据则存档至低成本存储。这种多层存储策略不仅节约成本,还确保所有数据在未来有需求时能被快速定位并使用。
6. 通过战略性数据治理释放数据潜力
在企业规模化运营中,战略性的数据治理是释放数据潜力的关键。
- 用户能够快速、安全、可靠地找到、访问和使用数据,为实时应用和关键决策提供支持。
- 尽管强大的数据治理需要数据、业务和领导团队之间的紧密协作,并付出大量投入,但以数据为驱动的组织所获得的竞争优势绝对值得这份努力。
关于作者
Marty Andolino,Capital One企业数据技术部门工程副总裁(VP of Engineering, Enterprise Data Technology)。在他的职位上,Marty 领导一个团队,负责数据管道、数据治理服务以及外部数据共享。在Capital One工作超过九年期间,他在零售、市场营销、反欺诈、数据、决策和架构等多个技术领域担任过不同角色。他热衷于打造积极的客户体验、创新的技术解决方案,同时也致力于指导和培养人才。
本文由爱分析翻译发布,转载或内容合作请联系我们,未经允许谢绝转载,本文链接:https://www.afenxi.com/123903.html 。