大数据杂谈:大数据中的关联与因果

早早起来,磨刀烧水,“做掉”了这个扰民的始作俑者,联想起大数据中的关联和课题组前三个月前发表的关于因果挖掘的论文(计算机学报2014.12,文后可下载),写了这篇博文,借此科普一下因果与关联,写得比较匆忙,不当之处请博友们指正。

今天离天亮还有两小时,就雄鸡一唱(可惜天未白),小区高楼群的回声指数比较高,人喊一声也能听见三次回声,那反复回荡的“喔喔喔—”,引得墙外两小区的公鸡也跟风叫起来,好家伙,鸡鸣三区,真是扰民。

大数据杂谈:大数据中的关联与因果

早早起来,磨刀烧水,“做掉”了这个扰民的始作俑者,联想起大数据中的关联和课题组前三个月前发表的关于因果挖掘的论文(计算机学报2014.12,文后可下载),写了这篇博文,借此科普一下因果与关联,写得比较匆忙,不当之处请博友们指正。

舍恩伯格的“三要三不要” 大数据之鼓手 维.舍恩伯格在《大数据时代》中提到了大数据处理的的三个技术取向:要全体不要抽样,要效率不要绝对精确,要关联不要因果。

其中最后一条引起不少质疑,笔者以为,不要因果,不是不想要,是要不到,是不得已而为之 。大数据有个四V特点,即大、多、快、稀(价值高而密度稀,参见 杂谈之一),大、多、稀、使得因果挖掘任务太费时,为应对快, 就萝卜快了不洗泥,放弃了因果挖掘。

鸡叫与天明是关联而不是因果 幼儿也知道鸡叫不是天亮的原因。反过来,天亮也不是鸡叫的原因,因为这违反“因前果后”的常识,鸡叫时天还没有亮;此外,上面提到的鸡鸣三区,至少后面两只鸡叫的原因是第一只鸡在叫,而跟着起哄。最后一段有一个猜想,做引玉之砖。

细心观察,可找到比”啤酒与尿布”更匪夷所思的真实例子,例如,醋(或井盐)与牛肉(山西平遥的老陈醋和平遥牛肉;四川阆中的保宁醋和张飞牛肉;自贡的井盐与火边子牛肉,等等)。

多数情况下关联很有用。尽管并不互为因果,鸡叫和天明的这两个事件的关联被广泛应用,在数千年在没有时钟的岁月里,老百姓鸡鸣而起,日落而休,将军们闻鸡起舞;勤政的帝王,如康熙乾隆,听见鸡叫也不敢懒睡。

人们相信这个关联,鸡叫了,就将天明,在大多数情况不会误事。这也是大数据重关联轻因果的基本信念。但是,下面的例子说明 关联可以正用,也可以反用;可以善用,也可以恶用;运用之妙,存乎于人。

巧用非因果性关联的典型例子 战国时 ,一个月黑风高的夜晚,孟尝君的带着一群鸡鸣狗盗之之徒,先盗裘,次行贿,然后半夜在函谷关学一声鸡鸣,引得全城鸡叫,哄开了城门,有如鲤鱼脱得金钩去,摇头摆尾不再来,成了千古经典,这是对这一关联的反用和善用;

在高玉宝的小说中,周扒皮为了长工们早出工,复用半夜鸡叫,那是恶用。

上面的善用和恶用中,数据链都是 人-鸡-人,利用人们相信鸡叫即将天亮的关联常识,这也说明关联不一定可靠,找到本质内涵,才能真正认识世界,而不被表面现象迷惑。

对关联的错误解释,如果没有深层次的挖掘,可能导致对关联的错误解释;在寓言故事中,常常有狐狸在老虎前面跑,传统语言解释为狐假虎威,其实很可能是狐惧虎威;

在如今的中国南海旁,有那么几个小丑跳梁,可能是狐假虎威和狐惧虎威三七开;

小试牛刀:挖掘因果关系 关联不一定是因果,但因果关系是一种特殊的关联先找到关联再用排除法,筛查因果,我们课题组在挖掘因果关系方面做了尝试。

本文后面的论文,发表在计算机学报2014第12期,基本思想是“扰动自变量—观察函数–排除假原因”。下面作一个不太通俗的(需要大一数学知识),也不太严格的解释。

如果x和y是z的疑似原因,设法挖掘出函数z=f(x,y),例如用基因表达式编程方法,一定能从形式上挖出来(可用性是另一回事),在理想情况下, 能做到在关注点的邻域,f(x,y)还是分段连续且可微分的;

在大数据集合上计算出关注点邻域的偏导数(δz/ δx)和 ( δz/ δy)。

由多元函数的微增量公式,得到

ΔZ= (δz/ δx)Δx+ ( δz/ δy) Δy,

如果|δz/ δx| 远远大于| δz/ δy|,则x是比y更强的原因。如果对x进行干预(或扰动),通常z会有趋势确定的变化,这种变化会在大数据中体现出来。

如果对x做有规律的干预(或扰动),在大数据中观察不到z的确定性的变化(例如Z随机震荡或者混沌),则可从原因清单中排除 x。

论文中的定理2,能保证在一定条件下,能排除大多数假原因。并在真实数据集上得到了验证。

隐藏的第三者可能是真正的原因 如果两个互相关联事件x和y之间没有因果关系,则可能存在(隐藏的)第三者w,它是这两个事件的共同原因。就好像一种病w.有两种并发的表面特征x和y;

例如,视力减退和腿脚麻木二者并不互为因果,他们可能是有第三者–糖尿病引起的;

醋(或井盐)与牛肉并茂的原因是以牛为醋(或井盐)的生产动力,从一线退下来的牛,促进了牛肉的烹制工艺(当然,以牛为神的地方,不会有这一关联)

而鸡鸣与天亮的关联可能源于自然选择。猜想如下,远古时期,鸡有某种天敌(如黄鼠狼之类 )常常攻击鸡群,且像特种兵一样,攻击时期常常在黎明之前,鸡们最疲倦的时候;某日,碰巧的基因突变,产生了有稳定的生物钟的一群预警公鸡,且其中在黎明前鸣叫的,起到了预警作用,没有预警公鸡的群体的被淘汰,日久天长,有预警的群体生存下来,占了统治地位,于是,今天的鸡鸣与天亮的关联有较高的置信度和支持度。

胡猜乱想乎?科学幻想乎?

参考文献 (点击可下载)

郑皎凌,唐常杰,乔少杰,杨宁,李川,陈瑜,王悦,“基于扰动的亚复杂动力系统因果关系挖掘”,计算机学报 Vol.37,No 12 2014,12,P2549-2563.pdf

作者:唐常杰,四川大学,计算机学院,教授

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
小胖的头像小胖编辑
上一篇 2016-06-06
下一篇 2016-06-08

相关文章

  • 如何才能拥有自己的数据技术工匠?

    在杭州,只要你是做数据的,阿里等互联网公司绝对是绕不过去的,现在到处都可以看到它们的身影,大家都说杭州互联网氛围很好,人才好找,但实际竞争激烈,各种猎头,各种社招,各种关系,无孔不入。 从事大数据工作以来,团队成员的社会化流动逐渐成了常态化的事情,今天就来谈一谈最近的几点思考。 如果你的数据团队没有被外部威胁到过,要么是你的业务偏居一隅,要么就是数据技术的落…

    2019-04-14
    2
  • 微博用户关系数据挖掘模型介绍

    概述 不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种用户关系仅令传播更加高效。如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱,如图1所示。微博中的信息从社交图谱中的某个节点发出,并通过边来传播。 图1 微博中的社交图谱 但是信息在这个网络中的流动并不是…

    2015-11-28
    0
  • 史上最全的“大数据”学习资源(上)

    为了帮助大家更好深入了解大数据,云栖社区组织翻译了GitHub Awesome Big Data资源,供大家参考。本资源类型主要包括:大数据框架、论文等实用资源集合。

    2016-05-08
    1
  • 初识机器学习和人工智能

    近日,英国皇家学会(Royal Society)发布了一份题为《机器学习:能通过样本进行学习的计算机的力量与希望(Machinelearning: the power and promise of computers that learn by example)》的专题报告。

    2017-06-14
    0
  • 大数据征信如何提升金融机构风控能力

    随着移动互联网时代的来临,从电子商务到互联网金融,人们在网络上产生的数据“足迹”越来越多,大数据已经成为当前金融机构加强风险控制的重要补充手段。

    2016-07-27
    0
关注我们
关注我们
分享本页
返回顶部