数据挖掘算法
-
常见的大数据术语表(中英对照)
通过本文给出一个常用的大数据术语表,抛砖引玉,供大家深入了解。
-
机器学习常用 35 大算法盘点(附思维导图)
本文将带你遍历机器学习领域最受欢迎的算法。系统地了解这些算法有助于进一步掌握机器学习。当然,本文收录的算法并不完全,分类的方式也不唯一。不过,看完这篇文章后,下次再有算法提起,你想不起它长处和用处的可能性就很低了。本文还附有两张算法思维导图供学习使用。
-
一种C2C电子商务信用评价的新算法
该文在对淘宝网C2C市场交易者信用评价指标进行效度评估的基础上,提出了以一种更为合理、也更为简明的两维(已知/未知和积极/消极)的新算法来替代传统的单维的累积型或比率型的信用评价模式。
-
魔都有多少喵星人?这篇文章告诉你答案
据说曾经有位西方记者问周总理,中国有多少厕所,周总理回答有两个,男厕所和女厕所。很机智,但也回避了这个问题。今天我们不回避,来聊了聊一个类似的问题,魔都有多少只猫。
-
推荐算法概览
为推荐系统选择正确的推荐算法非常重要,而可用的算法很多,想要找到最适合所处理问题的算法还是很有难度的。
-
聚类分析经典算法讲解及实现
本文将系统的讲解数据挖掘领域的经典聚类算法,并给予代码实现示例。
-
R语言中的遗传算法
前言 人类总是在生活中摸索规律,把规律总结为经验,再把经验传给后人,让后人发现更多的规规律,每一次知识的传递都是一次进化的过程,最终会形成了人类的智慧。自然界规律,让人类适者生存地活了下来,聪明的科学家又把生物进化的规律,总结成遗传算法,扩展到了更广的领域中。 本文将带你走进遗传算法的世界。 1. 遗传算法介绍 遗传算法是一种解决最优化的搜索算法,是进化算法…
-
实时大数据流上的频率统计:Lossy Counting Algorithm
在大数据处理中,或是面试中,经常会遇到这样的问题: 比如,一个社交网站上有上亿的用户主页,而且每天有上十亿的访问量,想实时知道最常被访问的主页有哪些,然后给出一个排名。常用的做法是给每个主页一个计数器,这样需要很大的内存(往往装不下)来保存这些计数器,但极大多数的计数器其实只有一次两次,这是一个非常大的浪费,而且现实资源不允许这么做。 再比如,一个网站有海量…
-
趣味数据挖掘系列12:数据挖掘中的趣味哲学
想用趣味的方式给《趣味数据挖掘系列》做一个哲学的总结,哲学常较深奥,深则难得有趣。因为选题含原生态冲突,写起来就费思量。拟借用一个交通肇事频率分析的例子,又百语千言,颇难开头。硬着头皮Try,还是从故事讲起,很久很久以前,It was long long ago…
-
趣味数据挖掘系列11:十大算法展辉煌历史,十大问题引锦绣前程
这篇突出资料性,先说三十年的十大算法,看数据挖掘的史上辉煌,再叙七年前提出的十大问题,证数据挖掘专家不是砖家;
-
个性化推荐系统基本概念及5种常规算法初探
整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。
-
趣味数据挖掘系列7:团拜会与鸡尾酒会上的聚类
用异于传统的方式,从讲课PPT上取些素材(这样比较快),来说明聚类的一些概念,为下篇做些铺垫,下篇将通过通俗的例子说明一个著名的方法。
-
趣味数据挖掘系列6:借水浒传故事,释决策树思路
决策树 (又称判定树,Decision Tree)是硕、博士生数据挖掘课程要点和难点,教学实践表明,这一章需要数学基础知识多,难得有趣。明知是难点,偏向难点行,再难也要“趣味”一番,从课程PPT中取了一些素材,把漫谈的焦点选在了水泊梁山。
-
趣味数据挖掘系列3:一篇 “它引” 上万的大牛论文 与 数据血统论
本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480+次),最后关注此文的实际影响 与 传统影响因子的差距。
-
趣味数据挖掘系列2:烤鸭、面饼和甜面酱之朴素关联
此文从原讲课PPT中,取一些素材,来解释关联规则的挖掘思路和应用方法。