随着企业越来越关注大数据,能够在一个安全的“沙箱”测试环境中对数据处理和查询能力进行实验,这对于企业IT部门与最终用户来说都是非常重要的。然而,建立一个安全、合适的大数据沙箱测试环境,和创建一个针对交易型数据及报告的传统测试环境是不同的。下文将列出由Transworld Data总裁Mary Shacklett总结的10个实施沙箱项目的注意事项。
1、数据集市还是主数据库?
数据库管理员需要从早期就做出决定,决定是让测试沙箱使用直接来自生产用的主数据库中的数据,亦或者最佳解决方案是将这些数据复制或者片段剥离到独立的数据集市中,仅供测试使用。完整数据库的好处是,可以测试用于生产中实际使用的数据,这样测试结果更加精确。缺点是,可能会和生产本身产生数据冲突。有了数据集市的战略,你不用冒着与生产数据发生冲突的风险,但是可能需要定期更新数据,以保持与生产数据的同步,更加接近于生产环境。
2、工作日程
日程安排是大数据沙箱活动最重要的一件事,这确保了所有沙箱操作都是在最佳状态下运行的,可通过同时安排一组较小的任务和一个更大的任务同时运行来实现。对于IT来说,这个过程的关键是坐下来和各种使用沙箱的用户进行交流,这样每个人都对日程安排有一个前期的了解,并清楚其背后的原理以及他们的工作期待运行时间。
3、设置限制
如果几个月的时间过去了却没有使用一个特定的数据集市或者沙箱,那么企业用户及IT部门就应该制订一个可接受的策略以净化这些资源,这样就能重新放到一个可以针对其他活动重新配置的资源池中。这个测试环境应该和生产环境一样被有效管理起来,这样资源只有正处于使用状态的时候才会被调用。
4、使用纯净数据
大数据管道工作的一个前提,应该是准备好数据并净化数据,这样在应用数据集市解决方案时,才能确保数据具备用于测试的质量。在一个不完整、不准确、甚至是遭到破坏的测试环境中使用数据是一个坏习惯——因为数据在放到测试区域之前并不安全。要学会摒弃这些坏习惯。
5、监控资源
假设大数据资源都集中在数据中心内,IT部门应该设置资源权限并监控沙箱使用率。一个需要经常密切关注的问题是:随着加入沙箱活动的终端用户部门越来越多,会导致出现过量配置的问题。
6、注意项目重叠问题
在某些时候,成立一个跟踪整个公司内各种正在进行中的沙箱项目的“监督委员会”是很有必要的,这样可以确保不会出现重叠或者冗余的项目。
7、尝试将计算资源交给IT部门集中管理
有些企业做大数据项目,先从特定的一些部门开始,然后马上会发现他们对付不了大数据,接着又去做他们自己的日常功能工作,管理计算资源。最终,他们把设备搬到数据中心,让IT部门自行管理。这让他们把精力专注在业务上,这也是大数据可以带来的价值。
8、组建大数据团队
即使在沙箱的测试项目中,让处理大数据的专业团队来辅助完成任务也是很重要的。通常情况下,这个团队应当由业务分析师、数据科学家以及一名具备软硬件资源优化能力、能与数据库专家协作的IT专家组成。
9、不要忘记业务价值目标
在将创新的想法融入进沙箱项目中时,不要完全忘记了最初的业务价值目标是什么。
10、明确大数据沙箱的定义
很多来自终端企业的参与者并不知道“沙箱”意味着什么。与早期的沙箱一样,大数据沙箱的目的是自由发挥,做与大数据相关的实验——但这是带有一定的目的性的。这个有目的的项目应该遵守沙箱实验的基本规则,例如什么时候、在哪儿以及如何使用沙箱,用实验与测试给企业带来有意义、有商业价值的结果。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。