数据挖掘
-
博客虫:你们是不是很缺大数据工程师?
摘要:说起大数据,有个成语可以来形容一下它的现状:遍地开花! 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了。 所以,有些东西、有些想法我还是愿意分享…
-
世纪佳缘用户推荐系统演变的故事
摘要:世纪佳缘用户推荐系统演变史 作为国内最大的婚恋交友系统,世纪佳缘近年来一直在大力发展互联网大数据相亲模式,从成立之初会员自己根据条件“大海捞针”的寻找,到现在的“懂你”系统、“人脸识别”系统,世纪佳缘的用户推荐系统正在一步步的完善和拓展,大数据相亲已经成为互联网婚恋交友网站的发展趋势。 世纪佳缘从2013年开始全力推进业务从PC端向移动端的转移,截至今…
-
以“草船借箭”为例,我们讲讲大数据建模
鲁迅评价诸葛亮“多智而近妖”,此话见诸《中国小说史略》,意思说诸葛亮足智多谋,像个妖怪。 而如今,从 大数据 的角度看,诸葛亮的足智多谋是因为他掌握了数据建模的办法。 今天,我们就来说说这诸葛先生的“数据建模”之道。 建模里的“模”是指模型。使材料成为一定形状的工具,就属于“模型”,这些模型看得见摸得着,叫做“具象模型”。但是也有些模型看不见摸不着,属于“抽…
-
数据夜话:机器学习的七嘴八舌
其实数据挖掘、机器学习一直在接触,只是没有像今年这样面对这么大的数据量和业务种类。应该来说数据分析也是做了很久,一直对机器学习这块怀揣着敬畏的心情,就像面对“大自然”的力量一样。相信很多包括产品、运营、技术开发的同学都算法这块都是一种觉得很高深的态度,而事实上的确机器学习、算法也很难,从各大招聘渠道信息也可以看得出来,什么硕士、博士,XX名校等。 一方面本身…
-
数据分析基础内容介绍:模型、工具、统计、挖掘与展现
1. 数据分析多层模型介绍 这个金字塔图像是数据分析的多层模型,从下往上一共有六层: 底下第一层称为Data Sources 元数据层。 比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来…
-
为什么说今日头条的大数据个性化定制就是个噱头?
今天我们就温柔地手撕一下国内目前装逼最成功的媒体之一,「今日头条」。 01 搜狐、新浪、腾讯、网易,这四大传统门户的新闻版块虽然日趋式微,但余威尚在。而「今日头条」从2012年上线至今不过短短3年,用户量已经突破3亿。中国网民总量不过6亿左右,几乎每两个人就有一个在用它。 「今日头条」的巨大成功,显然不是「正面刚」的结果,而很大程度上得益于它的差异化定位:基…
-
数据挖掘系列篇:Netflix机器学习系统的构建经验
有很多很好的介绍机器学习的教科书和课程,,甚至可以学习一些最复杂的特定的方法或算法,理解这些理论是一个非常重要的基础和起点。还有很多构建真实系统的实际问题,你可能闻所未闻。这篇文章将分享一些Netflix多年来构建大型系统放的最重要的教训,Netflix是跨许多国家支持数以百万计的用户规模。(Netflix是在线视频网站,每晚视频流量占据全美互联网流量近1/…
-
数据挖掘算法:K 均值算法
摘要:均值算法是一种典型的无监督学习算法,用来对数据进行分类。 聚类问题 Clustering 针对监督式学习,输入数据为 (x, y) ,目标是找出分类边界,即对新的数据进行分类。而无监督式学习只给出一组数据集 ${x_1, x_2, … , x_m}$ ,目标是去找出这组数据的模式特征,比如哪些数据是一种类型的,哪些数据是另外一种类型的。典型…
-
用数据说话:金州勇士队夺冠实非偶然
摘要:金州勇士队赢得了去年 NBA 常规赛和总决赛双料冠军,然而许多人认为他们的成功主要是因为运气好,他们的小球战术只适用于常规赛。 在 Stitch Fix 算法团队中有不少勇士队的忠实粉丝,因此我们打算从数据科学的视角来探索勇士队夺冠的决定因素。我们的分析结果中主要有两个重大的发现,这也是本文想要讨论的主要内容: 金州勇士队去年的成功绝非偶然,而是基于他…
-
数据挖掘系列篇:分类算法概述
数据挖掘这块重点就是介绍算法和应用案例,还有相应的开发语言R、excel、mapreduce、spark。前面重点介绍了数据挖掘主要解决的几类问题,而分类问题是数据挖掘中的重头戏。 如果我们在高校里,常见的就是训练一群样本数据的特征,跑出模型,也不一定要关心它的上线模型调优的效果,也不一定要关心它的性能还有实际业务的情况。但我们在实际的业务过程中,作为算法工…
-
有关Python机器学习最好的资料库
神经网络和机器学习在过去几年一直是高科技领域最热门的话题之一。这一点很容易看出,因为它们解决了很多真正有趣的用例,如语音识别、图像识别、甚至是乐曲谱写。本文总结了一些很好的Python机器学习库的清单。
-
什么是社会媒体挖掘?
What is 社会媒体挖掘 把玩社会媒体数据就称为社会媒体挖掘,比方以某种方式展现社会媒体数据,比方分析社会媒体数据的内里含义,又比方从数据中深挖总结抽象模式以指导其他应用。 社会媒体 基于Web 2.0的思想和技术的互联网应用,支持用户创造和交换内容。 好抽象,举个例子。 红圈圈内的都是社会媒体,你日日光顾的微信肯定是,当然远不止这些。 社会媒体数据 用…
-
数据挖掘系列:用户画像之用户标签
摘要:用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。 微博作为最大的中文社交媒体,拥有数以“PB”(1024 TB)计的用户信息,从海量的用户信息中发掘每个用户的社交特性、潜在能力及兴趣等信息,是微博为用户提供更…
-
数据挖掘系列篇之会员分析
说到数据挖掘,就不得不说到会员分析。老生常谈的问题,包括会员分级、用户画像、会员个性化营销、会员价值挖掘等等。而现在围绕会员的运营模式也在发生着变化,从过去做产品,到现在做会员服务,从P到S的转变势必会需要介入数据来挖掘会员的特征、习惯、活跃、忠诚度等。凡是接触到会员分析这块,都会谈到会员分级和忠诚度这些话题。至于为什么从零售到金融,从线下到线上都在谈这个,…
-
数据挖掘系列篇之DM解决几类问题
摘要:数据挖掘作为一门科学进入国内已经有几年时间了,从过去之前的啤酒与尿布的案例到现在在BAT公司的应用普及开来,这几年DM已经越发的成熟,在大数据应用价值上发挥着重要的作用。 宋代禅宗大师青原行思提出参禅的三重境界:“参禅之初,看山是山,看水是水;禅有悟时,看山不是山,看水不是水;禅中彻悟,看山仍然山,看水仍然是水。” 数据挖掘也是这样,初学数据挖掘的时候…