数据挖掘
-
重新认识大数据,听听MIT-CHIEF圆桌会议5问大数据
编者按:人人口中都在谈论着大数据,但是你真的知道大数据是什么吗?获取数据的过程中有哪些挑战,又要如何挖掘其中的商业价值呢?让我们听听大洋彼岸的从业者和专家们对大数据的解读吧。本文来自 Lucia Shen 的投稿。 在过去的周末,一年一度的美东华人创业狂欢 MIT-CHIEF年会在麻省理工落下帷幕,其中的几场圆桌论坛干货满满。今天为大家带来的是大数据行业的圆…
-
微博用户关系数据挖掘模型介绍
概述 不同于传统互联网媒体,微博作为社交媒体最大的优势在于引入了非对等的用户关系,这种用户关系仅令传播更加高效。如果将微博中的用户视作节点,用户之间的关系视作节点之间的边,那么这些节点和边将构成一个社交的网络拓扑结构,或称作社交图谱,如图1所示。微博中的信息从社交图谱中的某个节点发出,并通过边来传播。 图1 微博中的社交图谱 但是信息在这个网络中的流动并不是…
-
7大板块组成数据分析师的完整知识结构
【摘要】作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。 1. 数据采集 了解数据采集的意义在于真正了解数据的原始面貌,包括数据产生的时间、条件、格式、内容、长度、限制条件等。这会帮助数据分析师更有针对性的控制数据生产和采集过程,避免由于违反数据采集规则…
-
从数据挖掘的角度看神秘社区
让一起来品味一下这个神秘社区的数据。
-
从数据挖掘的角度看草榴社区
营造健康上网环境从你我做起
-
多维数据挖掘分析,Sensors Data想成为企业发展的动力源
据创始人桑文锋反馈,文章发布后几小时,就受到了诸多vc关注,其中不乏有投资界的大佬。
-
数据挖掘中易犯的10类错误
按照Elder博士的总结,这10大易犯错误包括: 0. 缺乏数据(Lack Data)1. 太关注训练(Focus on Training)2. 只依赖一项技术(Rely on One Technique)3. 提错了问题(Ask the Wrong Question)4. 只靠数据来说话(Listen (only) to the Data)5. 使用了未来…
-
你真的知道数据挖掘的定义吗?
我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过程也可以帮你在后面长时间的过程中解决这些问题。它可以指引你如何变得更有技能,同时对相关知识有深层次的了解。至少,我曾经就是用这样的方式完成了很多的工作。 我认为学习数据挖掘是很有用的,正如它以从数据中…
-
什么是数据挖掘和知识发现
摘要:我对做事的流程非常感兴趣。我想要知道一些可以把事情做好的好方法,甚至在可能的情况下可以知道做这些事情的最好方式。就算你的技能不强,理解相关方面的知识不深,这个过程也可以帮你在后面长时间的过程中解决这些问题。它可以指引你如何变得更有技能,同时对相关知识有深层次的了解。至少,我曾经就是用这样的方式完成了很多的工作。 我认为学习数据挖掘是很有用的,正如它以从…
-
沈浩老师谈如何学好数据挖掘
摘要:一位热爱传媒、热爱大数据、热爱摄影的老师,沈浩老师(微博@沈浩老师 )以问答的方式给你阐述如何学习、如何学习好数据挖掘。 下面是一位朋友的问题,其实每天都有不少同学和朋友向我提问各种学习数据分析、数据挖掘、统计分析等方面的问题,有时候真的很难仔细回答。其实,每个人都有自己的学习路径,还有自己的知识结构和期望的职业生涯,要得到一个统一的答案是困难的! 什…
-
通过深度数据挖掘做好F2P手游的三件事
在F2P手游市场中,贫富差距的现象从未如此巨大。全球每月平均有13185款新游戏进入iOS平台;22905款进入Android平台(来自Priori Data),竞争非常激烈。很多人通过数据挖掘来分析他们的游戏,从而增强玩家的游戏体验并创造更多的盈利空间。但是究竟该怎么做呢 通过深度数据挖掘,我们可以看清玩家在游戏中的一举一动,并加以收集、整理、分析。比如在…
-
用数据挖掘来支持音乐创作
一年里红起来的歌曲也就那么几首,流行音乐的风尚总在变化,想要在高度商品化的流行音乐市场里赚到钱,依赖音乐人个人的天分已经很难,如果能借助QQ音乐、百度音乐这类拥有大量用户试听及其他行为数据的平台,分析出当下的流行元素,就可以创作出一些适合传播的音乐。 先来看这类音乐平台都有什么数据可以利用: 一、用户行为及评分 类型很多,学术上通常称为显式表达和隐式表达。包…
-
做数据挖掘工作需要具备哪些思维原理?
大数据思维原理是什么?笔者概括为10项原理。 一、数据核心原理 从“流程”核心转变为“数据”核心大数据时代,计算模式也发生了转变,从“流程”核心转变为“数据”核心。Hadoop体系的分布式计算框架已经是“数据”为核心的范式。非结构化数据及分析需求,将改变IT系统的升级方式:从简单增量到架构变化。大数据下的新思维——计算模式的转变。例如:IBM将使用以数据为中…
-
R语言常用数据挖掘包汇总
与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster,…
-
Yelp是如何使用深度学习对商业照片进行分类的
摘要:Yelp是美国最大点评网站,拥有世界各地的Yelper上传的成千上万的照片。各种各样的照片给进入当地的商业提供了一个丰富的窗口。通过开发一个照片理解系统使Yelp能够创建有关个人照片的语义数据。跟Yelp第一次在基于内容的照片多样化方面所做的尝试一样,由系统生成的数据正在增强Yelp近期推出的封面照片多样化、标签式照片浏览等服务。 构建一个照片分类器 …