数据挖掘
-
当我们说数据挖掘的时候我们在说什么
文 | MaxLeap团队_ Pythoner 开头下定语 统计学习现在市面上谈论到的数据挖掘基本上都是基于统计学习的监督学习或非监督学习问题。尤其以监督学习应用面更广。 统计学习的应用 分类问题:客户分类模型、异常鉴别、图像识别等标注问题:信息抽取、自然语言处理等标注问题:信息抽取、自然语言处理等 统计学习的一般流程 得到一个有限的数据集合确定所有的学习模…
-
如何用Kano模型量化用户需求?
文 | 傅志华 Kano模型是东京理工大学教授狩野纪昭(Noriaki Kano)发明的对用户需求分析、分类和需求优先级排序的模型。kano模型以分析用户需求对满意度的影响为基础。狩野纪昭(Noriaki Kano)教授1984年首度提出了Kano模型,该模型受赫兹伯格理论的双因素理论启发而来。 赫茨伯格的双因素理论认为,满意和不满意并非共存于单一的连续体中…
-
整理一份详细的数据预处理方法
数据预处理的主要步骤分为:数据清理、数据集成、数据规约和数据变换。本文将从这四个方面详细的介绍具体的方法。如果在一个项目中,你在这几个方面的数据处理做的都很不错,对于之后的建模具有极大的帮助,并且能快速达到一个还不错的结果。
-
如何有效推进百万标签库的治理?
在大多数公司,成千上万的标签虽然在某种程度上是数据服务能力的象征,但到最后往往成为了一种负担,只管杀不管埋的现象太普遍了!
-
看完决策树相关的30道面试题,再也不怕遇到相关的问题了
决策树是机器学习和数据科学中最受欢迎的算法之一
-
那么多回归算法,选哪个好呢?帮你克服选择算法选择障碍
如何为特定的问题选择合适的算法
-
关于决策树,你想了解的都在这里
决策树,随机森林,bagging,boosting的介绍以及背后的原理。
-
序列模型简介:RNN, 双向RNN, LSTM, GRU,有图有真相
我们为什么需要序列模型?
-
理解二分类交叉熵,可视化的方法解释对数损失
现在的各种库和框架非常的简单易用,导致大家很容易忽视所使用的损失函数的真正意义。
-
使用词向量得到更好的类别特征的嵌入
回到2012年,当神经网络重新流行起来时,人们对不用担心特征工程就可以训练模型的可能性感到兴奋。事实上,最早的突破大多出现在计算机视觉领域,在这一领域,原始像素被用作网络的输入。
-
从概念到应用,这一次终于把数据挖掘给讲明白了
作者 | 陈封能 来源 | 《数据挖掘导论》(原书第2版) 导读:数据采集和存储技术的迅速发展,加之数据生成与传播的便捷性,致使数据爆炸性增长,最终形成了当前的大数据时代。围绕这些数据集进行可行的深入分析,对几乎所有社会领域的决策都变得越来越重要:商业和工业、科学和工程、医药和生物技术以及政府和个人。 然而,数据的数量(体积)、复杂性(多样性)以及收集和处理…
-
作为初创公司的第一位数据工程师,我学到了什么
一个没有数据工程经验的人成了一家初创公司的第一位数据工程师,这是一项艰巨的挑战,但回报也是很可观的。
-
如何解读决策树和随机森林的内部工作机制?
随机森林在过去几年里得到了蓬勃的发展。它是一种非线性的基于树的模型,往往可以得到准确的结果。但是,随机森林的工作过程大都处于黑箱状态,往往难以解读和完全理解。近日,Pivotal Engineering Journal 网站发表了一篇文章,对随机森林的基础进行了深度解读。该文从随机森林的构造模块决策树谈起,通过生动的图表对随机森林的工作过程进行了介绍,能够帮…
-
谱聚类:直觉以及背后的数学原理
作者:Neerja Doshi编译:ronghuaiyang 导读 谱聚类,了解直觉以及背后的数学原理 什么是聚类? 聚类是一种广泛使用的无监督学习方法。聚类是这样分组的:集群中的点彼此相似,而与其他集群中的点不太相似。因此,如何在数据中寻找模式并为我们分组取决于算法,根据使用的算法,我们可能最终得到不同的集群。 有两种广泛使用的聚类方法: 紧密性——相互靠…
-
用人话讲明白kmeans聚类算法
用人话讲明白kmeans聚类算法