数据挖掘
-
用文本挖掘技术分析电商非结构化的评论数据
电商平台中有海量的非结构化文本数据,如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性,也蕴含了用户的需求以及使用反馈。通过深度挖掘,可以精细化定位产品与服务的不足。下面描述了电商平台下机器学习在文本挖掘的应用例子。 1、用户评论分类 场景 用户评论能反映出用户对商品、服务的关注点和不满意点。评论从情感分析上可以分为正面与负面。细粒…
-
通过数据挖掘手段分析网民的评价内容?
作者:学飞 从坠落开始 本篇综述主要参考了Liu Bing的《Sentiment analysis and opinion mining》,增加了一些自己的观点。 Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies…
-
从机器学习谈起
摘要:在本篇文章中,将对机器学习做个概要的介绍。本文的目的是能让即便完全不了解机器学习的人也能了解机器学习,并且上手相关的实践。当然,本文也面对一般读者,不会对阅读有相关的前提要求。 在进入正题前,我想读者心中可能会有一个疑惑:机器学习有什么重要性,以至于要阅读完这篇非常长的文章呢? 我并不直接回答这个问题前。相反,我想请大家看两张图,下图是图一: 图1 机…
-
数据挖掘系列篇:在线机器学习FTRL算法介绍
最近几个同事在做推荐平台的项目,都问到怎么实现FTRL算法,要求协助帮忙实现FTRL的算法模块。今天也是有空,赶紧来做个整理。明天还要去上海参加天善智能组织的FLY BI大数据分享会。有兴趣参加线下活动的可以多关注下微博和微信的信息。没事可以多参加分享分享。现在特别是像做在线学习和CTR这块,应用LR是最广泛的。但是批量处理超大规模的数据集和在线数据流时就遇…
-
数据挖掘系列篇:推荐系统综述以及美团推荐系统介绍
其实推荐系统前面已经讲过不少,那时候主要是放在机器学习上讲的,既然这次要系统撸一遍数据挖掘,就把推荐系统单独拿出来说一说。相信如果做过推荐系统的人,都知道是什么回事。一堆features,一堆算法模型,一堆online、offline规则和计算,还有若干的场景。包括著名的netflix、Amazon做的推荐场景都有哪些,有哪些坑需要注意的,之前都有说过。没看…
-
考拉FM的个性化数据挖掘和处理
提起FM类APP,你都会想起哪些应用程序?来自易观智库数据显示,2014年3月电台类应用月度活跃人数最高的APP仍是考拉FM。上线不到一年的考拉FM,为何发展如此之猛? 与其他移动端电台不同的是,考拉FM采用个性化推荐音频流的播放逻辑,在用户未进行主动选择的情况下依旧能够收听到心仪的节目。移动音频娱乐与大数据挖掘的结合会是怎样的爆发?几天前,在中国电子学会主…
-
博客虫:你们是不是很缺大数据工程师?
摘要:说起大数据,有个成语可以来形容一下它的现状:遍地开花! 缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。 并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了。 所以,有些东西、有些想法我还是愿意分享…
-
世纪佳缘用户推荐系统演变的故事
摘要:世纪佳缘用户推荐系统演变史 作为国内最大的婚恋交友系统,世纪佳缘近年来一直在大力发展互联网大数据相亲模式,从成立之初会员自己根据条件“大海捞针”的寻找,到现在的“懂你”系统、“人脸识别”系统,世纪佳缘的用户推荐系统正在一步步的完善和拓展,大数据相亲已经成为互联网婚恋交友网站的发展趋势。 世纪佳缘从2013年开始全力推进业务从PC端向移动端的转移,截至今…
-
以“草船借箭”为例,我们讲讲大数据建模
鲁迅评价诸葛亮“多智而近妖”,此话见诸《中国小说史略》,意思说诸葛亮足智多谋,像个妖怪。 而如今,从 大数据 的角度看,诸葛亮的足智多谋是因为他掌握了数据建模的办法。 今天,我们就来说说这诸葛先生的“数据建模”之道。 建模里的“模”是指模型。使材料成为一定形状的工具,就属于“模型”,这些模型看得见摸得着,叫做“具象模型”。但是也有些模型看不见摸不着,属于“抽…
-
数据夜话:机器学习的七嘴八舌
其实数据挖掘、机器学习一直在接触,只是没有像今年这样面对这么大的数据量和业务种类。应该来说数据分析也是做了很久,一直对机器学习这块怀揣着敬畏的心情,就像面对“大自然”的力量一样。相信很多包括产品、运营、技术开发的同学都算法这块都是一种觉得很高深的态度,而事实上的确机器学习、算法也很难,从各大招聘渠道信息也可以看得出来,什么硕士、博士,XX名校等。 一方面本身…
-
数据分析基础内容介绍:模型、工具、统计、挖掘与展现
1. 数据分析多层模型介绍 这个金字塔图像是数据分析的多层模型,从下往上一共有六层: 底下第一层称为Data Sources 元数据层。 比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来…
-
为什么说今日头条的大数据个性化定制就是个噱头?
今天我们就温柔地手撕一下国内目前装逼最成功的媒体之一,「今日头条」。 01 搜狐、新浪、腾讯、网易,这四大传统门户的新闻版块虽然日趋式微,但余威尚在。而「今日头条」从2012年上线至今不过短短3年,用户量已经突破3亿。中国网民总量不过6亿左右,几乎每两个人就有一个在用它。 「今日头条」的巨大成功,显然不是「正面刚」的结果,而很大程度上得益于它的差异化定位:基…
-
数据挖掘系列篇:Netflix机器学习系统的构建经验
有很多很好的介绍机器学习的教科书和课程,,甚至可以学习一些最复杂的特定的方法或算法,理解这些理论是一个非常重要的基础和起点。还有很多构建真实系统的实际问题,你可能闻所未闻。这篇文章将分享一些Netflix多年来构建大型系统放的最重要的教训,Netflix是跨许多国家支持数以百万计的用户规模。(Netflix是在线视频网站,每晚视频流量占据全美互联网流量近1/…
-
数据挖掘算法:K 均值算法
摘要:均值算法是一种典型的无监督学习算法,用来对数据进行分类。 聚类问题 Clustering 针对监督式学习,输入数据为 (x, y) ,目标是找出分类边界,即对新的数据进行分类。而无监督式学习只给出一组数据集 ${x_1, x_2, … , x_m}$ ,目标是去找出这组数据的模式特征,比如哪些数据是一种类型的,哪些数据是另外一种类型的。典型…
-
用数据说话:金州勇士队夺冠实非偶然
摘要:金州勇士队赢得了去年 NBA 常规赛和总决赛双料冠军,然而许多人认为他们的成功主要是因为运气好,他们的小球战术只适用于常规赛。 在 Stitch Fix 算法团队中有不少勇士队的忠实粉丝,因此我们打算从数据科学的视角来探索勇士队夺冠的决定因素。我们的分析结果中主要有两个重大的发现,这也是本文想要讨论的主要内容: 金州勇士队去年的成功绝非偶然,而是基于他…