桃树科技创始人杨滔：大数据，多大算大？

关于作者：

杨滔，桃树科技（TaoData）创始人，专注于下一代人工智能产品的研发、应用与商业化。拥有超过十年机器学习研究与应用经验。奥克兰大学机器学习博士，悉尼科技大学博士后。创立桃数科技前，任职阿里巴巴集团数据科学家，建立淘宝网数据科学团队，首创聚划算爆款模型。

来源：微信公众号【桃树科技】（ID：TaoDataRobot）

“大数据，多大算大？”——这是一个经常被问到的问题。

这不是一个经济学问题，也不是一个数学问题，而是需要具体情况具体分析的一个实验问题。然而，实验需要工具。

首先，这取决于目标。如果没有明确的目标，数据常常被笼统地认为有用。然而，实际并非如此。互联网每天都产生大量数据，但其中大部分数据是噪音，不仅没有用，还需要被化疗掉。

当我们设定好一个可以量化的目标变量，算法才可以用科学的方式量化评估数据价值。

其次，我们需要工具，可以自动化跑通建模全流程，从而评估效果。这在机器学习技术——有监督学习中有详细介绍。在分类问题中，量化效果的指标包括：AUC, KS, Accuracy, Precision, Recall, F1 measure；在回归问题中，量化效果的指标包括：RMSE, RMSLE, MAE, Gini。

也就是说，当我们明确目标后，把数据丢给工具，工具告诉我们：用这份数据建模，效果是多少。

当我们有了目标和工具，我们便可以评估样本大小和数据价值的关系了。我们可以把数据进行分割，一份用于训练模型（训练数据），一份用于测试效果。对于训练数据，我们可以再随机均分为N份，基于部分训练数据进行预测并计算效果。

然后，我们便可以评估训练样本大小和模型效果之间的关系。不仅如此，我们还可以由此推断，什么类型的样本最有价值。

不是所有特征（变量）都有用，有用的特征往往并不多。建模工具同时还可以提供——哪些特征有用，权重分别是多少，详见机器学习技术——有监督学习。基于机器学习算法选择的变量和对应权重，我们可以进一步进行关联，找到和有用变量相关的其他潜在变量。

“大数据，多大算大？”这是一个简单的问题——如果你有工具。

你丢给工具一份数据，工具告诉你：

1. 这份数据的效果有多好？

2. 样本大小与数据效果的关系？

3. 什么样本最有用？

4. 什么特征最有用？

如此，你便可以继续收集和重要样本类似的样本，继续提取和重要变量相关的变量。

如果我们可以轻而易举地知道什么数据有用，那么，大数据，多大都不算大。