数据挖掘需要掌握的内容包括:统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。
下图比较清楚的画出了学习数据挖掘需要掌握的知识内容:
1、统计学
统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域。
统计学中用到的主要术语:
描述统计(descriptive statistics):研究数据收集、处理和描述的统计学方法。
推断统计(inferential statistics):研究如何利用样本数据来推断总体特征的统计学方法。
变量(variable):每次观察会得到不同结果的某种特征。
分类变量(categorical variable):观测结果表现为某种类别的变量。
顺序变量(rank variable):又称有序分类变量,观测结果表现为某种有序类别的变量。
数值型变量(metric variable):又称定量变量,观测结果表现为数字的变量。
均值(mean):均值也就是平均数,有时特指算术平均数,这是相对其他方式计算的均值,求法是先将所有数字加起来,然后除以数字的个数,这是测量集中趋势,或者说平均数的一种方法。
中位数(median):也就是选取中间的数,要找中位数,首先需要从小到大排序,排序后,再看中间的数字是什么。
众数(mode):众数也就是数据集中出现频率最多的数字。
2、机器学习
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
机器学习可以分为监督学习、无监督学习、半监督学习和主动学习。
监督学习主要是有样本的情况下进行的学习训练的过程。
无监督学习最主要的的过程是聚类分析,将模糊的多个类别通过聚类按照属性进行分类。
半监督学习是包括已经有分类的样本点或者无分类的样本点综合在一起考虑的过程。
主动学习主要是根据领域专家提供的专业知识进行学习,以提高模型的质量。
3、数据库系统与数据仓库
数据库系统主要是依靠强大的SQL查询能力对数据进行深度的处理和挖掘。
数据仓库现在比较流行的有hive,可以以数据进行离线处理,建立数据立方来分析建模。
4、信息检索
信息检索主要是对文本或者多媒体进行检索,构建索引,以快速的定位需要的文档或文件。
面向主题的应用,情感分析和TF.IDF等都可以归于信息检索的范畴。
本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。