数据挖掘
-
数据挖掘系列篇:在线机器学习FTRL算法介绍
最近几个同事在做推荐平台的项目,都问到怎么实现FTRL算法,要求协助帮忙实现FTRL的算法模块。今天也是有空,赶紧来做个整理。明天还要去上海参加天善智能组织的FLY BI大数据分享会。有兴趣参加线下活动的可以多关注下微博和微信的信息。没事可以多参加分享分享。现在特别是像做在线学习和CTR这块,应用L…
-
数据挖掘系列篇:推荐系统综述以及美团推荐系统介绍
其实推荐系统前面已经讲过不少,那时候主要是放在机器学习上讲的,既然这次要系统撸一遍数据挖掘,就把推荐系统单独拿出来说一说。相信如果做过推荐系统的人,都知道是什么回事。一堆features,一堆算法模型,一堆online、offline规则和计算,还有若干的场景。包括著名的netflix、Amazon…
-
考拉FM的个性化数据挖掘和处理
提起FM类APP,你都会想起哪些应用程序?来自易观智库数据显示,2014年3月电台类应用月度活跃人数最高的APP仍是考拉FM。上线不到一年的考拉FM,为何发展如此之猛? 与其他移动端电台不同的是,考拉FM采用个性化推荐音频流的播放逻辑,在用户未进行主动选择的情况下依旧能够收听到心仪的节目。移动音频娱…
-
以“草船借箭”为例,我们讲讲大数据建模
鲁迅评价诸葛亮“多智而近妖”,此话见诸《中国小说史略》,意思说诸葛亮足智多谋,像个妖怪。 而如今,从 大数据 的角度看,诸葛亮的足智多谋是因为他掌握了数据建模的办法。 今天,我们就来说说这诸葛先生的“数据建模”之道。 建模里的“模”是指模型。使材料成为一定形状的工具,就属于“模型”,这些模型看得见摸…
-
数据挖掘系列篇:聚类算法概述
本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。1.聚类 VS 分类 分类是“监督学习”,事先知道有哪些类别可以分。 聚类是“无监督学习”,事先不知道将要分成哪些类。 举个例子,比如苹果、香蕉、猕猴桃、手机、电话机…
-
数据挖掘算法:K 均值算法
摘要:均值算法是一种典型的无监督学习算法,用来对数据进行分类。 聚类问题 Clustering 针对监督式学习,输入数据为 (x, y) ,目标是找出分类边界,即对新的数据进行分类。而无监督式学习只给出一组数据集 ${x_1, x_2, … , x_m}$ ,目标是去找出这组数据的模式特…
-
数据挖掘系列篇:分类算法概述
数据挖掘这块重点就是介绍算法和应用案例,还有相应的开发语言R、excel、mapreduce、spark。前面重点介绍了数据挖掘主要解决的几类问题,而分类问题是数据挖掘中的重头戏。 如果我们在高校里,常见的就是训练一群样本数据的特征,跑出模型,也不一定要关心它的上线模型调优的效果,也不一定要关心它的…
-
网易惠惠购物助手大数据实时更新框架概述
一、需求是什么? 互联网中的许多应用都有数据实时更新的需求,比如网页搜索如何展示几分钟之前的新闻结果,购物搜索中价格、库存信息的实时更新。在大数据量的情况下,数据如何做到稳定及时的更新?本文以有道购物搜索(惠惠网)价格更新为例,介绍一下数据实时更新系统的服务器端设计方案。 1.1 痛点之一:大数据 …
-
什么是社会媒体挖掘?
What is 社会媒体挖掘 把玩社会媒体数据就称为社会媒体挖掘,比方以某种方式展现社会媒体数据,比方分析社会媒体数据的内里含义,又比方从数据中深挖总结抽象模式以指导其他应用。 社会媒体 基于Web 2.0的思想和技术的互联网应用,支持用户创造和交换内容。 好抽象,举个例子。 红圈圈内的都是社会媒体…
-
数据挖掘系列:用户画像之用户标签
摘要:用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。 微博作为最大的中文社交媒体,拥有数以“PB”(1024 TB)计的用户信息,从海量的用户信息中发掘…
-
数据挖掘系列篇之会员分析
说到数据挖掘,就不得不说到会员分析。老生常谈的问题,包括会员分级、用户画像、会员个性化营销、会员价值挖掘等等。而现在围绕会员的运营模式也在发生着变化,从过去做产品,到现在做会员服务,从P到S的转变势必会需要介入数据来挖掘会员的特征、习惯、活跃、忠诚度等。凡是接触到会员分析这块,都会谈到会员分级和忠诚…
-
数据挖掘系列篇之DM解决几类问题
摘要:数据挖掘作为一门科学进入国内已经有几年时间了,从过去之前的啤酒与尿布的案例到现在在BAT公司的应用普及开来,这几年DM已经越发的成熟,在大数据应用价值上发挥着重要的作用。 宋代禅宗大师青原行思提出参禅的三重境界:“参禅之初,看山是山,看水是水;禅有悟时,看山不是山,看水不是水;禅中彻悟,看山仍…
-
新浪微博的推荐算法简述
在介绍微博推荐算法之前,我们先聊一聊推荐系统和推荐算法。有这样一些问题:推荐系统适用哪些场景?用来解决什么问题、具有怎样的价值?效果如何衡量? 推荐系统诞生很早,但真正被大家所重视,缘起于以”facebook”为代表的社会化网络的兴起和以“淘宝“为代表的电商的繁荣,”选择“的时代已经来临,信息和物品…
-
微博用户关系数据挖掘模型介绍
概述 不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种用户关系仅令传播更加高效。如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱,如图1所示。微博中的信息从社交图谱中的某个节点发出,并通过边来传播…
-
从数据挖掘的角度看神秘社区
让一起来品味一下这个神秘社区的数据。