趣味数据挖掘
-
趣味数据挖掘系列12:数据挖掘中的趣味哲学
想用趣味的方式给《趣味数据挖掘系列》做一个哲学的总结,哲学常较深奥,深则难得有趣。因为选题含原生态冲突,写起来就费思量。拟借用一个交通肇事频率分析的例子,又百语千言,颇难开头。硬着头皮Try,还是从故事讲起,很久很久以前,It was long long ago…
-
趣味数据挖掘系列11:十大算法展辉煌历史,十大问题引锦绣前程
这篇突出资料性,先说三十年的十大算法,看数据挖掘的史上辉煌,再叙七年前提出的十大问题,证数据挖掘专家不是砖家;
-
趣味数据挖掘系列10:基因表达式编程
在本系列之九的末尾提到,基因表达式编程GEP(Gene Expression Programming)是一种数据挖掘工具,是进化计算家族中较新的成员。
-
趣味数据挖掘系列9:灯谜、外星殖民、愚公移山和进化计算
本文从《基因表达式编程》的课程PPT中取了一些素材,加以简化和趣味化,从猜谜出发,借用外星殖民的科幻,讨论了公式发现的进化算法,分析了其中的愚公移山思想,描述了进化计算的七个特征,为下篇博文做些概念的准备。
-
趣味数据挖掘系列8:农村中学并迁选址、K-平均聚类及蛋鸡悖论
本文从农村中学并迁选址问题出发,介绍了数据挖掘十大算法中位居第二的K-平均聚类,后又借用牛顿迭代原理,议论蛋鸡悖论。
-
趣味数据挖掘系列7:团拜会与鸡尾酒会上的聚类
用异于传统的方式,从讲课PPT上取些素材(这样比较快),来说明聚类的一些概念,为下篇做些铺垫,下篇将通过通俗的例子说明一个著名的方法。
-
趣味数据挖掘系列6:借水浒传故事,释决策树思路
决策树 (又称判定树,Decision Tree)是硕、博士生数据挖掘课程要点和难点,教学实践表明,这一章需要数学基础知识多,难得有趣。明知是难点,偏向难点行,再难也要“趣味”一番,从课程PPT中取了一些素材,把漫谈的焦点选在了水泊梁山。
-
趣味数据挖掘系列5:听妈妈讲过去的故事,分房与分类
故事中没有月亮、云朵和晚风,却有关于数据挖掘中的分类技术的启示;虽然,现在不再分福利房了,但此故事既回顾历史,也解释了分类技术若干要点,有参考价值。
-
趣味数据挖掘系列4:巧挖科学博客之均击量公式,兼谈干预规则
为消除疲劳,现来一段有趣的、与博友的自尊心和荣誉感相关的博文,议题是:挖掘科学博客的平均点击量公式,以及提高平均点击量的方法。
-
趣味数据挖掘系列3:一篇 “它引” 上万的大牛论文 与 数据血统论
本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480+次),最后关注此文的实际影响 与 传统影响因子的差距。
-
趣味数据挖掘系列2:烤鸭、面饼和甜面酱之朴素关联
此文从原讲课PPT中,取一些素材,来解释关联规则的挖掘思路和应用方法。
-
趣味数据挖掘系列1:被打”和“北大” 的关联
本文借此例来说明数据挖掘中关联规则中支持度、置信度和兴趣度概念,顺便对此事做个定量分析, 同时也作为趣味数据挖掘系列博文的开篇。