刘德寰：标签推荐都是伪推荐，未来数据分析是分析人

摘要：4月20日，UBDC全域大数据峰会2016在北京举办。会议以“无数据不智能”为主题，除主论坛之外，分别设立了“数据化运营”、“数据营销”、“IOT和O2O数据应用”、“数据开放与发展纵横谈”四个平行分论坛。

北京大学社会学博士、北京大学新媒体研究院教授刘德寰在“无数据不智能”的主论坛上，围绕“有效大数据运算的两个路径假说及意义”进行演讲。他直言：目前很多的标签推荐都是伪推荐，未来数据分析应该首先完善人的纬度，未来的数据分析就是分析人。

刘德寰提出了有效大数据运算的两个路径假说：第一个路径，未来数据分析就是分析人，完善人的纬度。第二个路径，对物的纬度探测，基于人的认知习惯。

他进一步介绍这两个假设：每个非人的事物都由一个确定的N维空间，而且N可以从人的认识能力角度定义。他特别以tesco作为案例，这家企业不仅针对每一个商品都会进行20纬度的打分，同时也会根据进店顾客进行全面的分析。

以下为刘德寰在UBDC全域大数据峰会·2016中分享的速记实录：

非常高兴跟大家分享，因为这个话题我考虑非常多的时间了。我今天要讲的实际上有效大数据运算的两个路径假说极其意义。因为现在大数据已经跟我们在一起，我们只有不读书才会谈那些，现在这个时候需要反思大数据的问题，这个题的起源于什么呢？

起源于几个问题，第一问题是人类行为93%是可以预测的？我讲的不好就低头看手机，我讲的好就照相，这些预测的东西有多少我们可以做的呢？我在用另外一个科学数据来说，人和人之间的差异，DNA上差异，原来说是0.1%，现在是0.3%，大家记住99.9%和99.7%是一致的，这个问题实际上是特别本质的问题，不要说我拿一个数就能够算出来说对人的差异，个性化能够算出来，因为这是一个数列问题。看第二个现象，两个数这两个人90%的相似度，但是人的行为有多少呢？按几十亿次来算，几十亿次几百万亿次的行为，当中如果有90%的相似度，会如何？

日常生活当中经常有现象，两个人的对话，这是前两天的对话，审美疲劳不喜欢了，原来特别喜欢，现在有点烦，另外一个人说我也是，真的有点烦人，我们的数据去推断人的时候我们考虑这些因素了吗？

再看一个，深度学习，确实名词都很炫，实际上集体学习分了层级，层次不同而已，深度学习面临本质问题，实际上主要做的原来集体学习当中，太随意，我不断优化这个模型，但是深度学习一直在用于图像、视频，这些包括文字学习当中，有谁说过对人的学习了吗？因为那些物是不变的。只要出来了就放在那儿不变的，人是变的。所以我今天要谈四个问题。

第一个问题是推荐算法及问题，第二个有效运算的原则，然后我提出两个假说。看一下现在推荐算法当中大数据运算什么东西比较容易，已经解决的问题都是比较容易的，抓取简单的运算，简单表格的运算，数据可视化这些都比较容易，只要把经典算法学过来，简单改进，现在多的不得了，改进一下应用到现实当中不难。但是难的问题是什么？效果，如何改进效果，这是一个天大的难题。

人们浏览行为那么快，我们一定要在这个基础问题上用MODElbased.我们现在习惯于打标签，以相似邻居推荐而且算法绝对不是基于人性和生活，而是基于商业，大量的过度泥和。

不要把一个变量理解为一个维度，一个变量是N个维度。这个时候我们在数据运算的时候，任何一个人的行为都是无规律的，但是人的生活方式是很有规律的，我们发现十年后看到人一点都没有变，生活方式、价值观、表现形式一点都没变，这是在常人的建立。但是人的态度、情绪、场景都不一样，怎么可能规律呢？人是能变的，群的行为的规律是稳定的，这个分群不是一个行为的迭加，它是一种生活方式的展现。在这个当中，群是可感知，可评判，一个人可以处于N个。我们在原来发现中有一个小群体，在移动互联网里中，技术红颜，35到45岁的女性，买手机，消费当中都有技术最前面的手机，追求技术，我们这拨人引领了什么？技术红颜的是从年轻果粉中出现的。大家可以看技术红颜引发的技术旋风。接下来他演化成了巨大的趋势和族群，形成了新的潮流，这个潮流叫熟女经济之微博移动化。他也引领了网购，他同时引领了整个产业潮流的变迁，他把整个安卓新的崛起，背后都跟这个小族群有非常大的联系关系。

群的稳定，一看苹果的客户一直是M型，它是稳定的，它在运算当中是可行的。所以第一个假说对象是人，第二个假说对象于物。有两个假说：每个非人的事物都由一个确定的N维空间，而且N可以从人的认识能力角度定义。每一个不同的物品，N维不一定一样，但是相似，只是一个数量的变化。TESCO把每一个产品都用20个维度打标签，这件事情有多简单，我在推送的时候，OK，新闻喜欢这个东西，这个东西在时尚上打分是39.2，同时他还喜欢这个东西，这个东西在技术产品当中打分是90分，再找一个产品，大家说这个效率要高于多少其它的事情。真正在预算当中，我自己认为这种方式可以融入社科的所有思想，所有搞计算机，便成的人，非常多的程序员整天说的话都不是人话，对其它的行业一点不了解，大家觉得这事靠谱吗？这让我想起了东方不败。大家可以看看亚马逊，亚马逊在这方面也在进行探索，这实际是运算逻辑本身要反归人性，我们要向社会学、经济学、法学、政治学、传播学，所有学科，我们要学习他们已有的知识，把已有的知识稳定到我们的计算当中，我相信那种运算规则不仅效率高，而且简单。所以我基本感觉在未来的运算当中，有两个东西，就是刚才说的这两条路径可能是未来。之所以是假说，是因为没有大规模实施，但是它在逻辑和实践上是有前提的。

第一个路径分析人，完善人的维度。第二个路径对物探测，他必须是基于人的认识和习惯，这两条路径不仅效率高，稳定性高，同时能带来未来的各自分析的可能性，同时可对可实现。

本文为专栏文章，来自：刘德寰，内容观点不代表本站立场，如若转载请联系专栏作者，本文链接：https://www.afenxi.com/14806.html 。