傅志华：构建互联网产品数据管理体系

产品数据管理是什么？

产品数据管理（PDM）最早出现在20世纪80年代中期，过去产品设计、工艺设计、生产管理使用的图纸、工艺、生产计划、物资管理都是纸质文件，但一经计算机处理后，这些纸质文件都转化成为计算机中各种不同类型格式的数据，因此出现了产品数字化的概念。这些数字化的产品数据管理称为PDM（ProductData Management）。PDM以管理企业的产品数据为基础，管理所有与产品相关的信息（包括电子文档、数字化文件、数据库记录等）和所有与产品相关的过程（包括工作流程和更改流程），通过控制涉及这些信息的所有过程、管理协调与这些过程有关的所有机构和人员，保证设计人员在需要的时候都能够访问到正确的信息，并提高设计者之间及应用与应用之间的信息反馈速度，从而达到缩短产品的开发周期、降低成本、提高质量和改善产品性能的目的。

互联网企业也有系统化的产品数据管理体系，由于大数据的发展，互联网企业的产品数据管理体系相对于传统企业的产品数据体系有着更显著的差异和特色：

（1）由于产品功能多元化和产品更新迭代速度快，数据体系的构建更为复杂；

（2）可采集的数据更为全面和多样化，数据对产品运营和优化决策的作用更为显著；

（3）对数据处理能力的要求更高，尤其是对海量数据处理的能力，数据计算的实时性方面要求更高；

（4）对数据分析和数据挖掘的深度要求更高，数据能够为产品决策提供更多的支撑。

互联网的产品数据管理应用概览

互联网的产品数据管理包括四大方面，具体包括：

（1）数据统计指标设计。互联网产品数据体系的构建，从统计指标设计出发，以结果导向来设计数据体系，以更好的进行产品开发和运营管理。

（2）数据上报采集。设计好数据体系后，我们需要和相关产品经理、产品开发人员规划数据上报，确定通过技术手段采集那些数据。

（3）数据存储、处理和统计。即对上报的数据进行加工和存储，利用大数据技术进行数据统计和数据展现，方便查看和检索。

（4）数据分析与挖掘。即对重要的产品设计和运营问题或者方向进行数据分析和挖掘，对重要的产品关键数据进行实时监控和预警。

这四方面形成闭环，不断的循环改进。虽然互联网产品的数据管理体系从数据统计指标体系出发，而数据分析和数据挖掘是最后一步，但经过数据分析和数据挖掘，也会进一步促进数据统计指标的设计和优化。

　　数据统计指标设计

　　衡量一个产品的好坏可以分为经营类指标、体验设计类指标和性能质量类指标。不同产品定位和功能都有不同，因此无法完全统一指标来直接衡量各个产品的好坏。因此，不同产品的数据指标体系既有相同的方面，也有差异的方面。在下一篇文章，我们将分别详细介绍电商、游戏和工具类产品应用的通用类数据指标体系。在差异化的方面，每个产品可以提炼出与自身产品定位和功能更有针对性的指标，如像微信，朋友圈的发图片量一定是重要的但也比较特殊的活跃度指标。

在数据指标体系设计过程中，常常遇到以下问题：

（1）产品缺乏有效的数据监控。产品越来越多，但对产品缺乏监控与评估，各功能对用户的需求与满意度，贡献度无定期反馈与评估机制。

（2）数据需求合理性问题。产品经理或运营人员提出的数据需求往往没有经过专业数据分析师评估与评审，对数据指标的统计必要性、完备性和准确性缺乏评估。

（3）数据指标体系科学性问题。现有的产品指标多数是是记录部分原数据，对产品的衡量缺乏立体化维度，缺失部分关键指标。

为了解决这些问题，我们需要从以下四大方面解决：

（1）提炼关键产品关键价值指标。产品关键价值指标是每个业务（功能）综合衡量指标，该指标包括财务类经济收入指标和用户活跃度的总体指标。常用指标如收入、日活跃用户数和付费用户数等。

（2）构建立体化的产品评估体系。我们需要对影响产品关键价值指标的相关影响因素进行详尽分析，并构建立体化的指标体系进行监控。比如影响日活跃用户的相关指标，可能包括用户参与度类指标、用户留存类指标和产品性能类指标，这些指标都尽可能细化，并进行监控。

（3）细分指标，有利与定位与发现问题，便于开展专项分析。我们需要对产品关键价值指标进行细分拆解，以方便定位产品关键价值指标异动原因。如对日活跃用户的拆解，我们可以从不同版本角度进行拆解或者从产品不同功能模块拆解，以方便发现日活跃用户异动的原因。

（4）建立数据需求评审制度。定期如每周进行数据需求评审，数据需求提出方与分析师、数据开发人员共同讨论，根据数据需求的背景和商业目标制定相应的数据指标体系，并确定数据的来源，如果没有现成的数据源，还需要驱动开发进行数据上报。

数据上报采集

互联网产品的数据采集需要通过开发人员写程序或者使用已有的工具把相关的数据以日志的方式传输到数据上报的服务器，数据开发人员再对相关的日志进行日志解析、入库，以方便数据统计。但很多产品经理或者运营人员以为数据不用上报就可以做数据统计，这是一个常见的误区，会经常导致产品上线后，关键的运营数据都不能看到。很多互联网产品经理或者运营人员经常把数据上报和数据统计混淆，以为上报项就是统计项，或者以为提了数据上报需求就有统计结果，或者做数据上报的测试不做统计的测试。实际上，数据上报是数据采集的手段，上报是数据统计的数据来源之一。还有一种极端的方式是，产品经理或者运营人员为了上报数据而提上报数据需求，不管上报的数据是否有用，尽可能多的提，导致提了非常多没有用的数据上报项，浪费公司开发资源，浪费数据存储资源，浪费公司开发人力。

如何进行有效的数据上报？我们常常看到，很多数据上报需求对上报条件与规则描述不太清楚，导致与数据上报的开发人员、测试人员的沟通中常出现理解不一致，常常导致返工等浪费人力情况。有效的数据上报需求说明应该包括以下要点：统计项名称、统计目的、统计方式、上报项描述、业务逻辑及触发时机。我们建议把此作为互联网产品数据上报需求的模板，以规范数据上报需求。通过建立数据上报模版，帮助提高产品需求的质量，提高与开发测试方沟通的效率，节省沟通成本。以“发送图片成功账户数”为例，数据上报内容如下：

统计项：发送图片成功账户数。

统计目的：产品关键数据之一，衡量产品运营整体效果。

统计方式：日周期统计。

上报项描述：该用户成功发送图片的次数。

触发条件/业务逻辑详细描述：发送成功账户指自定义图片由发送方计算机成功上传到服务器，当天只要有一次发送成功则被记为成功账户。

数据存储、处理和统计

数据上报到数据存储服务器后，经数据开发人员数据处理后，便可以进行统计和数据展示。大数据存储经常面临存储规模大和存储管理复杂的挑战，需要兼顾结构化、非结构化和半结构化的数据。传统数据库对这类需求和应用无论在技术上还是功能上都不能很好的解决。我们可以利用分布式文件系统和分布式数据库技术来解决这些问题。同时，大数据存储还要考虑一个重要的问题，即数据的生命周期管理问题。数据有其生命周期，同时，数据存贮也有相应的成本。随着数据量越来大，数据维护成本越来越高，数据使用效率也会逐渐降低。大数据管理里面经常面临的问题是：什么样的数据需要一直存储，如果要存储是在线存储还是离线存储，那些数据需要存储一定时间后要进行删除。因此，我们需要对数据的不同时效、不同访问频率、不同重要性进行区分，结合存储成本的考虑，制定相应的存储策略。如交易型数据其数据重要性高和访问频率高，可以采用在线存储。

在数据处理和统计上，要重点解决以下问题：

（1）多样化的数据处理。互联网大数据的特点是要对不同数据结构特征的数据处理，即要对结构化/半结构化数据和非结构化的数据进行处理；

（2）数据实时性问题。从数据计算响应性能角度看，大数据处理可分为实时/准实时与非实时计算，流式计算通常属于实时计算，查询分析类计算通常也要求具有高响应性能，而批处理和复杂数据挖掘计算通常属于非实时或线下计算，那些数据需要实时计算，那些数据需要离线计算，要提前评估和准备；

（3）数据关联性问题。如MapReduce 适用于处理数据关系较为简单的计算任务，但社会网在络等具有复杂数据关系的计算任务则需要研究和使用图数据计算模式；

（4）并行计算的体系和硬件平台的搭建。大数据处理通常需要使用基于集群的分布式存储与并行计算体系结构和硬件平台，尤其是随着很多需要高响应性能的大数据查询分析计算问题的出现，MapReduce 其在计算性能上往往难以满足要求，用内存计算完成高速的大数据处理已经成为大数据计算的一个重要发展趋势。

数据分析和数据挖掘

数据分析和数据挖掘需要集成的、经过清洗的、可信的、可高效访问的数据，通过大数据分析和挖掘，大数据的价值才可以更好的发挥出来。大数据环境下的分析和挖掘方法与传统的小数据统计分析有很多不同，这些方向也是构建大数据能力和体系时需要解决的问题。大数据时代，数据分析和数据挖掘体系需要解决以下问题：

（1）大规模数据的处理和分析。大数据环境下的数据分析需要处理大规模的且数据量急速增长的数据。在这种情况下，我们可以采用抽样的技术来把数据规模变小，以便利用已有的技术手段来进行数据分析。但在某些领域，抽样会导致信息的丢失。所以，如何应对TB级别甚至更高量级数据量进行分析，是大数据分析相对于小数据分析的最大挑战。

（2）数据分析的深度和广度。一方面，由于大数据种类的多样性，不仅仅包括结构化的数据，还包括半结构化、非结构化的数据，使得可以分析的维度变多，数据分析的广度变得更宽，可以从更多的维度发现小数据所不能发现的洞察。第二方面，结合大数据的算法和更为复杂的统计分析模型，我们可以做更深度的分析，比如预测客户流失的概率以及流失的原因，实时监测和定位数据异动的原因等。因此，相对于小数据，大数据在数据分析的深度和广度都有更为明显的优势，从数据更好的发现知识并加以利用进而指导人们的决策。

（3）数据分析和数据挖掘的实时性。在大数据时代，数据分析越快、越及时，对商业价值的贡献则越大，查询和分析的实时处理能力，对于人们及时获得决策信息，做出有效反应是非常关键的前提。如根据用户最近购买行为、浏览行为通过大数据技术来及时的“猜测”用户的潜在需求，推荐用户最想购买的商品，并推送有有效的促销信息促成用户购买。这个猜测和推荐的过程越快效果越好。但是，在面对大数据，数据分析和数据挖掘的实时性成为大数据应用最大的挑战。因此，构建实时计算能力如利用spark、storm等实时计算技术成为提升数据分析实时性的关键。

（4）数据分析的自动化和可视化结合。在大数据时代，我们需要利用大数据技术实现分析的自动化，让机器能做的事情充分的让机器来完成。要实现“机器”自动化的数据分析，前提是让“人”提前设置好数据分析的模式。这样，人可以把更多的分析经验和思路沉淀为分析模式，让机器不断的利用分析模式来及时的、自动化的计算，从而使得数据分析可以更好的提高效率。同时，如果我们还可以利用大数据可视化的手段把复杂的计算结果用简单易用的可视化数据产品展示出来，将有利于“大数据用户”更好的理解数据分析的结果，更好运用数据来做更多有效的决策。总之，大数据可视化与大数据分析自动化的结合，一方面由于机器的自动化计算提高了分析效率，另一方面，由于可视化提供了用户对数据的直观分析和展示，提升了数据的易用性。如果还可能，大数据可视化可以进一步结合人机交互，将能带来更好的分析效果。大数据可视化方面结合人机交互的功能，本质上是提供了人和数据的“对话”功能，可以更好的探索数据中的隐含信息，进行更好的推理，获得更深入的洞察。

总之，互联网产品的数据管理体系需要产品经理、产品运营人员、开发人员和数据分析师共同合作完成，并不是数据分析师或者是产品经理一个人就能完成的事情。为了更好的建设符合大数据时代的产品运营的数据体系，我们需要充分理解数据体系的商业目标，做出科学严谨的产品数据体系，做好数据上报的规范，构建大数据存储和计算的能力，做好数据的生命周期管理，搭建具有大数据技术能力的数据分析和数据挖掘体系，并在这些基础上形成数据体系设计、数据上报采集、数据存储计算和数据分析挖掘的良性循环。

文：傅志华

关于作者：傅志华先生曾为腾讯社交网络事业群数据中心总监以及腾讯公司数据协会会长。在腾讯前，曾任DCCI互联网数据中心副总裁。傅志华先生现就职于某互联网公司大数据中心副总经理，同时任中国信息协会大数据分会理事和中国互联网协会大数据工作组专家。

本文为专栏文章，来自：傅志华，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/473.html 。