作者:翰成
数据分析是一个在外人看来具有无限吸引力的职业,它能从无序和非理性的世界中提取有序和理性,将混乱梳理成丝丝线索。当预想的结果跃然屏上时,数据分析师会有一种极大的满足感和成就感,满足感和成就感驱使他们把分析手段和方法形成一种良好的相对固定的经验模式,推及到其他案子的分析中去。
好的分析手段不是唯一手段,好的分析手段并不会在所有的案子中都能达到理想的效果,就像一个非常优秀的小伙,并不一定和所有姑娘都合适,很多时候得到的可能就只是一句“你是个好人”。
同样的,通往理想结果的分析方法很多,但是有时候很多不可控的原因束缚着数据分析师的手脚,让他们没有办法从最佳途径走向成功的结果——也许是数据访问权限不足,也许是数据格式不正确,也许是数据缺失严重。但是除了这些外在的因素之外,数据分析师还需要处处提防自己给自己布下的的陷阱,这些陷阱会让他们付出极大的代价。
在数据分析师的工作过程中,很多人会因为共同的7个内因栽跟头,我们把这些内因归结为7个致命原罪。这些原罪可能会导致很严重的后果,而且你能看到不断地有分析师掉到这些陷阱里。希望本篇文章能帮助分析师看清前方的路,更好地驾驭数据。
贪心
当推着购物车冲进超市后,你一股脑把自己想要的东西扔进购物车里,在结账前,你会重新查看一下你选购的东西,在后面排队的大妈的催促声中把那些不需要的东西拣出来。在数据分析中,人们也很难控制这种贪欲。我们的大脑,或者是老板,高喊着“再多一点,再多一点!”好像简单地收集最大的数据集就能达到最好的效果。但是,也许在大数据里将“大”视为重点可能获得更多的潜在结果和启示,但数据库本身的大小并不会决定最终的分析结果。
尽管有时候能从漫无目的的收集来的数据集中得出有用的见解,但这些见解大部分时候只是起到锦上添花的作用,在有既定目标的数据采集中,还是要保持克制。
膨胀
说到贪心和膨胀,有时会混淆,但是,贪婪更多地是指获得更多的“东西”,而膨胀更多地指自身过度的、超出范围的扩张。
在创建分析模型时,适用于分析目标、在自己的专业领域是最常规的做法。然而,当你开始超越这些边界,试图涵盖更大的范围或者那些与你的分析需求不一致的东西时,这些无关紧要的工作可能导致项目过于复杂而导致分析错误,而如果这涵盖了你不擅长的领域,可能会得出完全相反的结果。
防止这种膨胀的唯一方法是始终把你的模型控制在你的业务范围和专业范围之内,纵然模型肯定需要不时地进行调整,但这种调整应该是仔细权衡后的结果,而不是盲目地扩大范围。
冒进
预测样本外数据是开发任何类型的预测模型的关键组成部分,它可以帮助发现初始数据集中的潜在偏差,合理地进行样本外数据的测试可以验证你的分析模型,至少可以给你提供有用的信息来帮助你对模型进行调整,这一步不可或缺。
好事多磨,然而很多分析师往往缺乏足够的耐心。了解样本外数据的限制与了解样本内数据的限制一样重要。强化模型要利用模型对已有的样本进行预测,与样本数据进行比较,也需要利用模型对样本外数据进行预测,验证模型。随着数据集的扩大,不仅需要重新调整模型,而且需要重新确定用于创建模型并进行测试的样本数据,这些工作不可能一蹴而就。
懒惰
懒惰这个原因听起来似乎很简单,但它是最不容易避免的。
在数据分析中,懒惰或者草率体现在多个方面。它可以体现在设计阶段的开端,数据点考虑不完全,或者没有完全了解不同类型数据之间的关系,它体现在允许在数据收集阶段收集不完整或不合格的数据,当然也可以表现在建立模型时的偷工减料或不能全面地考虑异常和异常值出现的原因。
很多人都知道亡羊补牢这个成语,但它做起来就是这么难,往往当千里之堤被蚁穴侵蚀到将要垮塌的时候,很多人才知道之前的一点点懒惰总是会付出代价的。
愤怒
永远也不要让情绪左右你的工作,否则所有的分析都会失败。
数据并不会照顾你的情绪,你怒或不怒,数据就在那里,不增不减。如果你对你暂时的失败感到愤怒,唯一能伤害到的就是你自己,同时你也正在损害伤害那些和你合作的人——你的客户、同事、商业伙伴等。
当在分析中遭遇失败时,最好的做法是接受它,然后弄清楚下一次如何确保得到正确的结果,专注于解决问题。要知道,数据分析的过程就是一个不断发现自己的错误的过程,您会遇到各种各样的问题,同时你也得到了很多认识错误和修正错误的机会。
数据分析模型需要随着时间的推移逐步改进,它永远不会是完美的,这也意味着你将永远有一个新的困难要面对,如果你可以马上想出所有的东西,这样的工作岂不是很无聊很没有挑战性?
盲从
建立一个全新的模型,提出一种看待世界的新方式,很难,这需要你改变自己的观点,并以你自己甚至所有人都从未见过的方式去审视数据。在现实里,由于别人已经建立了一个相对优秀的模型,参考别人的模型来建立自己的模型就成了很多分析师的首选。
第一个新产品具有真正的优势,其后出现的同类产品就黯然失色了。如果别人的模型真的非常出色,那么你做一个类似的模型,当你达到他们现在的位置时,他们已经跑远了。这样不断跟跑的结果就是你永远无法超越。
数据分析是创新的科学,它需要不断寻找别人没有探索的路径,然后通过测试去验证。如果意外地成功了,就总结成功的经验,如果不出意外地失败了,就吸取失败的教训,当你建立一个全新的模型时,你就会成为别人追逐和模仿的目标。
自满
市场永远比你更了解市场,忘记这个真理就意味着处在危险的边缘。
毛主席曾经说过:虚心使人进步,骄傲使人落后。这句话同样适用于数据分析领域。如果你认为自己不可阻挡,自己的分析无懈可击,那么你迟早会被打脸,可能是被对手,叶可能是被现实。
分析数据需要谦卑的姿态。如果你在数据分析中总是抱着极大的自信,你很有可能会被分析结果打脸。数据分析永远是数据引导结果,如果你试图控制数据分析的结果,那它一定会以你意想不到的结果教训你。
每个数据分析师都逃脱不了这7个致命原罪的诱惑,这些“禁果”潜藏在所有的分析过程中,,诱惑你、误导你、吞噬你。希望你能通过了解这些原罪的迹象,准确地捕捉到它们出现的迹象,最终避免掉入它们的陷阱。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。