大家好,我是王汉生。今天呢,跟大家讨论一个话题,叫做:论大数据“砖”家的典型特征。请注意啊,我这里“专家”的“专”呐,是“砖头”的“砖”。所以,今天的话题呢,有点调侃逗乐。如果一不小心,真的有“砖”家中招,千万别介意,我也就开个玩笑,纯属误伤友军,别upset哈!好了,不拐弯抹角了,切入正题。根据我的观察,大数据“砖”家有四个典型特征:
第一,大数据“砖”家的第一个特征是:言必称“4V”,而毫无个人见解。我跟大家学一下啊:某“砖”家上台,掌声响起,“砖”家发言开始:大数据啊,4个V哦。哦,我告诉你啊,是哪四个V哈。第一个啥子来着?噢,Volume,数据特别大呀。第二个啥来着?啊哈,Variety,形式多样化。还有啥?呦,Velocity,速度特别的快呀。最后一个是啥来着?哦,Veracity,数据要真实哈。啊,这就是大数据哈!怎么样,我学的像不像?大家是不是似曾相识啊?想想看,念概念有啥了不起啊,谁都会。所以,只要有人在我跟前说“几个V”,我心里呀,就有几个特别可爱的、澳洲特产的动物,奔腾而过! 这就是大数据“砖”家的第一个特征。
大数据“砖”家的第二个特征:言必称“大数据时代,都知道总体了,不需要抽样”。唉,这要我说啥呢?这要我说啥?这是标准的“秀才遇见兵,有理说不清”啊。但是我可以负责任的说,这个观点是无知荒谬的,说的太绝对了。我们不排除,有的时候啊,对于一些特定的研究问题,是可以获得总体的,那就不需要抽样了。但是,在更多的时候,抽样是无法避免的。给大家举一个非常典型的例子——预测。大家都知道,数据建模的一个重要应用就在于预测。例如:预测一个投资组合将来是否会盈利?预测一个想借钱的人,真的我把钱借给他了,他是否会赖账。所以预测很重要,对吗?但是,只要是预测问题,它的总体是什么?它的总体包含了还没有发生的未来!未来都还没发生呢,你哪来的总体呀?总不能靠穿越吧!说白了,这样的“砖”家,只是在机械地复述一个别人的,而且非常不严谨的观点,实在没搞懂总体的定义。当然了,这也不能怪“砖”家,“砖”家肯定没有学过扎实的统计学,所以呢,狗熊会任重而道远啊!这是第二个特征。
大数据“砖”家的第三个特征:言必称“大数据时代,相关关系就可以了,不需要因果关系”。这个说的也太绝对了。相关关系之于预测,是有用的,自古都知道。但是,相关关系永远不能替代因果关系。例如:公鸡一叫,太阳升起来了,高度相关。那我明天想睡懒觉咋办?把咱家的公鸡宰了,太阳就不升起来了吗?还有人说,大数据分析表明,女生短裙的长度,和一个国家的GDP高度相关。今年啊咱们经济形势不好,咱号召全国女性穿超短裙,可以解决GDP的问题吗?说白了,“相关关系”是普遍存在的。尤其是样本量大的情况下,很容易被观测到。但是,“因果关系”就非常不容易了,极其可贵,是科学研究、业务决策的关键所在。这是第三个特征。
大数据“砖”家的第四个特征:言必称“沃尔玛、谷歌、IBM的高大上案例”。但是,对于发生在自己周围的普通的产业实践,一无所知。言必称沃尔玛的“啤酒尿布”,经常说谷歌的“票房预测”,还讨论IBM的“智慧城市”。我对这些案例的看法是这样的:首先,我持有审慎怀疑的态度。我怀疑这些案例是真的可以被产业化的商业案例吗?还是企业的公关PR策划?大家真的用心想想,我的怀疑有没有道理。其次,假设这些案例都是真的。请问:与我何干?关我嘛事?对发生在我们自己周围的产业变迁,有啥借鉴意义?千万别跟我说:有一定的借鉴意义。您倒是整一个真的创造了价值的案例,咱学习学习!这是大数据“砖”家的第四个特征。
最后啊,简单总结一下。今天跟大家分享了大数据“砖”家的四个典型特征。大周一的,大家都不想上班,礼拜一呢,综合征,给大家讲个笑话,开心一下,哈哈哈!如果大家不爽,以后管王老师叫大数据“砖”家好了。谢谢大家。
来源:狗熊会 作者:王汉生
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。