熊大胡说巅峰之作:论大数据“砖”家的典型特

论大数据“砖”家的典型特征。

熊大胡说巅峰之作:论大数据“砖”家的典型特

大家好,我是王汉生。今天呢,跟大家讨论一个话题,叫做:论大数据“砖”家的典型特征。请注意啊,我这里“专家”的“专”呐,是“砖头”的“砖”。所以,今天的话题呢,有点调侃逗乐。如果一不小心,真的有“砖”家中招,千万别介意,我也就开个玩笑,纯属误伤友军,别upset哈!好了,不拐弯抹角了,切入正题。根据我的观察,大数据“砖”家有四个典型特征:gouxionghui1

第一,大数据“砖”家的第一个特征是:言必称“4V”,而毫无个人见解。我跟大家学一下啊:某“砖”家上台,掌声响起,“砖”家发言开始:大数据啊,4个V哦。哦,我告诉你啊,是哪四个V哈。第一个啥子来着?噢,Volume,数据特别大呀。第二个啥来着?啊哈,Variety,形式多样化。还有啥?呦,Velocity,速度特别的快呀。最后一个是啥来着?哦,Veracity,数据要真实哈。啊,这就是大数据哈!怎么样,我学的像不像?大家是不是似曾相识啊?想想看,念概念有啥了不起啊,谁都会。所以,只要有人在我跟前说“几个V”,我心里呀,就有几个特别可爱的、澳洲特产的动物,奔腾而过! 这就是大数据“砖”家的第一个特征。

gouxionghui2

大数据“砖”家的第二个特征:言必称“大数据时代,都知道总体了,不需要抽样”。唉,这要我说啥呢?这要我说啥?这是标准的“秀才遇见兵,有理说不清”啊。但是我可以负责任的说,这个观点是无知荒谬的,说的太绝对了。我们不排除,有的时候啊,对于一些特定的研究问题,是可以获得总体的,那就不需要抽样了。但是,在更多的时候,抽样是无法避免的。给大家举一个非常典型的例子——预测。大家都知道,数据建模的一个重要应用就在于预测。例如:预测一个投资组合将来是否会盈利?预测一个想借钱的人,真的我把钱借给他了,他是否会赖账。所以预测很重要,对吗?但是,只要是预测问题,它的总体是什么?它的总体包含了还没有发生的未来!未来都还没发生呢,你哪来的总体呀?总不能靠穿越吧!说白了,这样的“砖”家,只是在机械地复述一个别人的,而且非常不严谨的观点,实在没搞懂总体的定义。当然了,这也不能怪“砖”家,“砖”家肯定没有学过扎实的统计学,所以呢,狗熊会任重而道远啊!这是第二个特征。

gouxionghui3

大数据“砖”家的第三个特征:言必称“大数据时代,相关关系就可以了,不需要因果关系”。这个说的也太绝对了。相关关系之于预测,是有用的,自古都知道。但是,相关关系永远不能替代因果关系。例如:公鸡一叫,太阳升起来了,高度相关。那我明天想睡懒觉咋办?把咱家的公鸡宰了,太阳就不升起来了吗?还有人说,大数据分析表明,女生短裙的长度,和一个国家的GDP高度相关。今年啊咱们经济形势不好,咱号召全国女性穿超短裙,可以解决GDP的问题吗?说白了,“相关关系”是普遍存在的。尤其是样本量大的情况下,很容易被观测到。但是,“因果关系”就非常不容易了,极其可贵,是科学研究、业务决策的关键所在。这是第三个特征。

gouxionghui4

大数据“砖”家的第四个特征:言必称“沃尔玛、谷歌、IBM的高大上案例”。但是,对于发生在自己周围的普通的产业实践,一无所知。言必称沃尔玛的“啤酒尿布”,经常说谷歌的“票房预测”,还讨论IBM的“智慧城市”。我对这些案例的看法是这样的:首先,我持有审慎怀疑的态度。我怀疑这些案例是真的可以被产业化的商业案例吗?还是企业的公关PR策划?大家真的用心想想,我的怀疑有没有道理。其次,假设这些案例都是真的。请问:与我何干?关我嘛事?对发生在我们自己周围的产业变迁,有啥借鉴意义?千万别跟我说:有一定的借鉴意义。您倒是整一个真的创造了价值的案例,咱学习学习!这是大数据“砖”家的第四个特征。

最后啊,简单总结一下。今天跟大家分享了大数据“砖”家的四个典型特征。大周一的,大家都不想上班,礼拜一呢,综合征,给大家讲个笑话,开心一下,哈哈哈!如果大家不爽,以后管王老师叫大数据“砖”家好了。谢谢大家。

来源:狗熊会 作者:王汉生

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
大数据精选的头像大数据精选编辑
上一篇 2016-05-31 01:46
下一篇 2016-06-01 09:00

相关文章

  • 统计数据会撒谎?95%海外观众对春晚满意

    昨晚我的微博微信被这条新闻刷屏了《95%海外观众对央视春晚满意》,每条消息下面都是大量的评论吐槽。大部分网友是不相信95%的满意度这个结果的,有关春晚的吐槽段子也是随处可见。小部分网友认为结果有可能是合理的,因为每逢佳节倍思亲,能看到春晚自然倍感亲切,自然是好评如潮。 95%的满意度到底是否可信?我们先来看新闻源,毕竟判断一个数据是否可信的前提是数据来源是否…

    2016-02-09
    0
  • 为什么特征相关性非常的重要?

    数据与特征相关被认为是数据预处理中特征选择阶段的一个重要步骤,尤其是当特征的数据类型是连续的。那么,什么是数据相关性呢?

    2021-03-22
    0
  • 大数据过载会适得其反吗?

    只有当我们可以获取数据、弄懂数据并共享数据的时候,才能让每年花费在分析数据的百万投资值回票价。

    2016-09-13
    0
  • 个性化推荐应用很low?绝对是知识精英赤果果的偏见!

    去年以来,参加了不少会议,会议上不少专家忧心忡忡地批判以今日头条为代表的个性化推荐引擎,其理由无非是造成知识窄化、低俗化和不精准等陈词滥调,现在还只能说出这些理由只能说明他们根本不了解个性化推荐。 知识窄化是知识精英的误判 所谓知识窄化,是指人们的知识在某一方面或某一方向高度集中,导致知识,越来越收缩。知识窄化并不是一个新名词,曾记得当微博兴起时,不少专家就…

    2016-04-22
    0
  • 下一波科技浪潮:数据

    商业巨头都在其时代成为过世界的首富,而他们商业模式都有一个共同点:对于资源的垄断。

    2017-05-18
    0
关注我们
关注我们
分享本页
返回顶部