数据挖掘
-
面试干货!21个必知数据科学面试题和答案part2(12-21)
摘要:这里是第二部分,就从我给大家准备的“特别提问”开始吧。作者Gregory Piatetsky,KDnuggets. 特别提问:解释什么是过拟合,你如何控制它 这个问题不是20问里面的,但是可能是最关键的一问来帮助你分辨真假数据科学家! 回答者:GregoryPiatetsky 过拟合是指(机器)学习到了因偶然造成并且不能被后续研究复制的的虚假结果。 我…
-
面试干货!21个必知数据科学面试题和答案part1(1-11)
摘要:KDnuggets编辑给你“20个问题来分辨真假数据科学家”的答案,包括什么是正则化、我们崇拜的数据科学家、模型验证等等。 作者:Gregory Piatetsky, KDnuggets. 最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小…
-
如何处理数据中的缺失值
现实世界中的数据往往非常杂乱,未经处理的原始数据中某些属性数据缺失是经常出现的情况。另外,在做特征工程时经常会有些样本的某些特征无法求出。路漫漫其修远兮,数据还是要继续挖的,本文介绍几种处理数据中缺失值的主要方法。 一、常用方法 1. 删除 最简单的方法是删除,删除属性或者删除样本。如果大部分样本该属性都缺失,这个属性能提供的信息有限,可以选择放弃使用该维属…
-
新浪微博的用户画像是怎样构建的?
【摘要】用户画像一般是指将用户信息标签化的过程,在分析用户属性这种静态维度时,通过平台自身的合理引导便能获取到精准的用户信息,那么关于”用户兴趣“这种可变动态的属性该怎么去构建用户画像呢这个新浪微博的案例或许能告诉你正确答案 1.概述 从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(…
-
统计学和数据挖掘的异同探讨
1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。 统计学和数据挖掘研究目标的重迭自然导致了迷惑。…
-
微信红包的随机算法是怎样实现的?
摘要:最近看了一篇文章,讲微信红包随机算法的。感觉很不错,所以自己实现了下,并进行了简单测试。 算法 算法很简单,不是提前算好,而是抢红包时计算: 红包里的金额怎么算?为什么出现各个红包金额相差很大?答:随机,额度在0.01和剩余平均值*2之间。 实现 实现上述算法的逻辑主要是: LeftMoneyPackage数据结构如下: 测试时初始化相关数据是: 测试…
-
可视化分析的知识产生模型
日前在2014 VIS会议上,来自德国康斯坦茨大学数据分析和可视化组(Data Analysis and Visualization Group, University of Konstanz)的Sacha等人,提出了一种基于可视化分析的知识产生模型。这个模型保留了过去的挖掘模型,如KDD模型,也从各角度、各层次更加全面地阐述了人类利用计算机的可视化分析系统…
-
【Python】爬虫+K-means聚类分析电影海报主色调
摘要:每部电影都有自己的海报,即便是在如今这互联网时代,电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报,精致的电影海报可以吸引人们的注意力。那么问题来了,不同风格的电影海报对颜色有什么样的偏好呢? 利用Python爬取海报数据 为了回答这个问题,我们需要分析不同风格电影的海报情况。首先,我们需要构建一个电影海报数据的数据集,因此我利用…
-
以性别预测为例,谈谈数据挖掘中的分类问题
摘要:互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。 数据挖掘的基本内容 首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下: Data mining is the use o…
-
融资1000万!他们是世界数据大赛冠军,已为15家企业提供数据挖掘应用服务
前几年,外界关于大数据的讨论沸沸扬扬。不过在陈运文(以下简称陈)看来,这些讨论雷声大雨点小,落实到应用层面的并不多。 那个时候,陈还是盛大创新院的成员,在院长陈大年的召集下,这里聚集了众多陈景仰的计算机人才,如潘爱民、陆坚博士等。在创新院里,负责数据挖掘的他还结识了许式伟、季昕华、黄伟等技术牛人。 进入2015年以后,有一段时间,生活安逸的陈觉得有些彷徨。与…
-
如何做好数据挖掘与数据建模的9条经验总结
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的…
-
联合交通数据拥有方 “华视互联” 和数据加工方 “北斗技术研究院”,TDEP 希望做一个交通数据交易平台
摘要:有价值的数据来自于交易和共享,而大数据必须跟行业结合才会产生价值。对于交通而言,其问题在于产生拥堵、安全问题与环境问题。那么,交通由数据来驱动的话可以在哪些方面有所作为呢?可以想到的有交通运力设计、路网线网设计、生活设施配套、以及城市规划设计等。而要让数据真正流转起来,需要将交通数据的拥有方、应用方、以及加工方整合到一起组建一个交通数据交易平台。 我近…
-
空间数据挖掘认识及其思考
摘 要: 在这个大数据时代,空间数据正在从各个领域飞速累计。空间数据挖掘作为数据挖掘的一部分,现已成为人们研究空间数据的重点学科。主要介绍了空间数据挖掘的基本概念、一般步骤及其最新的挖掘方法,表达了对当前空间数据挖掘的看法。最后对未来空间数据挖掘的研究方向进行了更加深入的探讨。 0 引言 空间数据挖掘(Spatial Data Mining,SDM)即找出开…
-
Tableau大中国区销售总监Thomas Yap:敏捷的数据分析能力助你在猴年职场旗开得胜
摘要:敏捷的数据分析能力会助你在猴年职场旗开得胜 猴年新年一过,大家都回到了各自的工作中,开始为各自的事业而忙碌。在新一年伊始,大部分人都会重新审视自己的职业生涯,思考如何在新一年的工作中能有所提高,还有许多人会试着寻找职场中的新机遇,迎接全新的挑战。这时,不妨来看看一些职场领域的热门话题,或许对你有所启发。 当我们还在欢度猴年春节的假期时,全球经济形势充满…
-
大嘴巴漫谈数据挖掘:问卷测试评分项,测试结果分析中
在产品试商用的定量测试结果分析中,首先通过实际数据展示了产品下载安装成功率的具体情况。如上所示,可以看出,其中有90%的测试用户安装成功,有10%的测试用户出现了问题,而安装不成功主要归咎于三种情况,应重点关注并及时改进完善。 接下来的产品偏好评价方面,如上所示,最上面描述了影响产品各个指标的体验得分及权重。纵坐标表示各个指标的重要性程度,横坐…