数据挖掘
-
大数据建模实操案例分析
在大数据的时代,企业和消费者的接触点变得越来越多,企业要实现它的业务需求,首先要从接触点上采集消费者的数据,然后去进行分析和挖掘,以满足不同业务部门的需求,这个是业务层或者说需求层要解决的一些问题。
-
大嘴巴漫谈数据挖掘:定位目标找用户,分类筛选决策树
数据挖掘中的决策树算法是一个广泛应用的判别方法,可以将一个决策流程映射到一个树形结构上,同时满足特征属性描述的简洁性和分类结果预测的准确性。
-
商品搜索引擎的推荐系统设计方案
结合目前已存在的商品推荐设计(如淘宝、京东等),推荐系统主要包含系统推荐和个性化推荐两个模块。
-
【收藏】R数据挖掘分析常用包和函数
1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验…
-
新闻推荐,追逐卡戴珊的“屁股”
前一阵子,有一篇新闻文章叫“雅虎记者的困扰:与卡戴珊的屁股竞争”,讲的是雅虎公司的一群高级记者所写的文章与推荐系统所推荐的文章相互竞争协调的事情,里面提到的现象可能很多做推荐系统开发的人都感同身受,似曾相识。那么今天,我们不谈具体的公司具体的案例,而来聊一下推荐系统开发中遇到“推荐结果和自己的直觉不相符合怎么办”这个事情该怎么办。 记者和编辑的抱怨 你是一个…
-
论推荐系统的Exploitation和Exploration
一个推荐系统,如果片面优化用户的喜好,很可能导致千篇一律的推荐结果。文中曾经用了一节来讨论为什么使用Exploitation & Exploration (E & E)结果可能依然不能“免俗”。其实,E & E是推荐系统里很有意思,但也非常有争议的一个算法。一方面,大家都基本明白这类算法的目的,每年有很多相关论文发表。另一方面,这是工…
-
R语言数据挖掘实战案例:电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个…
-
基于统计学模型的无指导中文文本分析
摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。 邓柯:今天下午非常荣幸参加这样的活动,也非常感谢活动的主办方,清华大学数据科学研究院的邀请。今天给大家分享一个我们最近做的工作。 刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士。北大毕业之后到哈佛大学统计系,做了几年博士后,做了一些研究…
-
Python爬虫进行Web数据挖掘总结和分析
利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析。
-
矩阵分解在推荐系统中的应用:NMF和经典SVD实战
摘要:本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 itemuser Ben Tom John Fred item 1 5 5 0 5 item 2 5 0 3 4 item 3 3 4 0 3 item 4 0 0 5 3 item 5 5 4 4 5 item 6 5 4 5 5 useritem item 1 item 2 i…
-
K-Means聚类算法的原理及实现
K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。 K值及初始质心 K值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K值决定了初始质…
-
个性化推荐应用很low?绝对是知识精英赤果果的偏见!
去年以来,参加了不少会议,会议上不少专家忧心忡忡地批判以今日头条为代表的个性化推荐引擎,其理由无非是造成知识窄化、低俗化和不精准等陈词滥调,现在还只能说出这些理由只能说明他们根本不了解个性化推荐。 知识窄化是知识精英的误判 所谓知识窄化,是指人们的知识在某一方面或某一方向高度集中,导致知识,越来越收缩。知识窄化并不是一个新名词,曾记得当微博兴起时,不少专家就…
-
通过抓取婚恋网用户数据来生成自己的择偶观
摘要:本文教你使用python抓取婚恋网用户数据并用决策树生成自己择偶观 最近在看《机器学习实战》的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己对书本的理解,顺便还可以在github拉拉人气。刚好在看决策树这一章,书里面的理论和例子让我觉得这个理论和选择对象简直不能再贴切,看完长相看学历,看完学历看收入。如果可以从婚恋网站…
-
一线专家谈谈:数据挖掘在实际领域中的那些事儿
大家好,我是明略数据的佘伟。今天非常荣幸能给大家分享明略数据在大数据挖掘方面做的一些事情。 企业中的数据挖掘我们先来看看在企业中数据挖掘都是怎么做的,以及有着哪些问题。 图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这…
-
基于树的建模-完整教程(R & Python)
简介 基于树的学习算法被认为是最好的方法之一,主要用于监测学习方法。基于树的方法支持具有高精度、高稳定性和易用性解释的预测模型。不同于线性模型,它们映射非线性关系相当不错。他们善于解决手头的任何问题(分类或回归)。 决策树方法,随机森林,梯度增加被广泛用于各种数据科学问题。因此,对于每一个分析师(新鲜),重要的是要学习这些算法和用于建模。 决策树、随机森林、…