数据挖掘
-
大嘴巴漫谈数据挖掘:聚类分析后安排,细分群组有特征
如前所述,用户细分包括前后两部分,即前一部分因子分析完成后,还要对获得的公共因子进行随后的聚类分析。 聚类分析按照相似度进行划分类别,相似度一般由数据对象间的距离远近来衡量。基于确定的业务需求和分析目标,可以从用户基本属性、用户使用行为两个方面选择变量,随后便要进一步明确样本数据的形式。 样本数据中性别、年龄及收入是离散变量,而使用频度和价值贡献是连续变量,…
-
趣味数据挖掘系列8:农村中学并迁选址、K-平均聚类及蛋鸡悖论
本文从农村中学并迁选址问题出发,介绍了数据挖掘十大算法中位居第二的K-平均聚类,后又借用牛顿迭代原理,议论蛋鸡悖论。
-
趣味数据挖掘系列7:团拜会与鸡尾酒会上的聚类
用异于传统的方式,从讲课PPT上取些素材(这样比较快),来说明聚类的一些概念,为下篇做些铺垫,下篇将通过通俗的例子说明一个著名的方法。
-
趣味数据挖掘系列5:听妈妈讲过去的故事,分房与分类
故事中没有月亮、云朵和晚风,却有关于数据挖掘中的分类技术的启示;虽然,现在不再分福利房了,但此故事既回顾历史,也解释了分类技术若干要点,有参考价值。
-
趣味数据挖掘系列4:巧挖科学博客之均击量公式,兼谈干预规则
为消除疲劳,现来一段有趣的、与博友的自尊心和荣誉感相关的博文,议题是:挖掘科学博客的平均点击量公式,以及提高平均点击量的方法。
-
趣味数据挖掘系列3:一篇 “它引” 上万的大牛论文 与 数据血统论
本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480+次),最后关注此文的实际影响 与 传统影响因子的差距。
-
趣味数据挖掘系列2:烤鸭、面饼和甜面酱之朴素关联
此文从原讲课PPT中,取一些素材,来解释关联规则的挖掘思路和应用方法。
-
趣味数据挖掘系列1:被打”和“北大” 的关联
本文借此例来说明数据挖掘中关联规则中支持度、置信度和兴趣度概念,顺便对此事做个定量分析, 同时也作为趣味数据挖掘系列博文的开篇。
-
如何使用sklearn地进行数据挖掘?
使用sklearn进行数据挖掘。
-
这家媒体为什么要用32万条数据做新闻?
不管你愿不愿意,大数据已经无孔不入,很多行业都被卷入了它的冲击波中,带来行业趋势甚至操作准则的改变。
-
Tensor Flow为你揭开深度学习隐藏层的神秘面纱?
为计算机构建一个复杂的神经网络是人工智能的关键,但人脑的这一活动却被「隐藏层」笼罩在神秘的面纱中。谷歌的开源人工智能项目 Tensor Flow 最近创造了一个神经网络游乐场,其目的是通过让用户与隐藏层互动和实验的方式除去这个隐藏层的神秘面纱。
-
使用混淆矩阵(Confusion matrix)对分类模型进行评估
本篇文章我们介绍一种对分类模型进行效果评估的方法:混淆矩阵(Confusion matrix)。
-
工作场所安全与健康问题的大数据解决方案
很多人在工作过程中遭受了足以影响其未来的人生伤害,而大数据有望给他们的工作环境带来一场革新,这给他们带来了希望。
-
数据科学是一种自由的艺术吗?
怎样去给问题构建框架?怎样去交流你的结论?学习自由的艺术。
-
文本数据的机器学习自动分类方法(下)
随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。