数据挖掘
-
数据挖掘化功大法(19)——什么是数据挖掘(下)
什么是数据仓库 数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理: ①数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库; ②数据仓…
-
数据挖掘化功大法(18)——什么是数据挖掘(上)
什么是数据挖掘 前两天看到群里有人问,什么是数据挖掘,现在就数据挖掘的概念做一下分析,并且尽量用大白话说一下数据挖掘到底是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。 先看一上概念: 数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简…
-
数据挖掘化功大法(17)——分布式缓存
分布式缓存架构 先看架构: 图一 用户通过访问http服务器,然后访问应用服务器资源,应用服务器调用后端的数据库,在第一次访问的时候,直接访问数据库,然后将要缓存的内容放入memcached集群,集群规模根据缓存文件的大小而定。在第二次访问的时候就直接进入缓存读取,不需要进行数据库的操作。这个适合数据变化不频繁的场景,比如:互联网站显示的榜单、阅读排行等。 …
-
数据挖掘化功大法(16)——R中的线性回归
一元回归 我们使用R中自带的数据集trees。其中包含了Volume(体积)、Girth(树围)、Height(树高)这三个变量。我们需要看的是体积和树转的关系。 查看数据集: > head(trees) Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16…
-
数据挖掘化功大法(15)——线性回归
线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多…
-
数据挖掘化功大法(14)——数据整理与数据归约
在我们需要整理的数据中,很多都是经过不同时间由于各种原因生成的数据,有的是可以追溯到源头的,有的是很难追溯的。 通常我们会将所有的数据通过各种方式将数据字典收集到一起,然后进行相应的分析。 下面介绍一下使用powerdesigener进行数据整理: 1.在Windows的ODBC数据源中陪着你的数据源,在“系统DNS”中配置你的数据源,配置细节大家都应该非常…
-
数据挖掘化功大法(13)——矩阵分解
矩阵分解 (decomposition,factorization)是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、QR分解、Jordan分解和SVD(奇异值)分解等,常见的有三种:1)三角分解法(Triangular Factorization),2)QR 分解法 (QR Factorization),3)奇异值分解法 (Singular Valu…
-
数据挖掘化功大法(12)——特征值和特征向量
矩阵的特征值和特征向量 设A 是一个n 阶方阵,λ是一个数,如果方程 AX=λX (1) 存在非零解向量,则称 λ 为 A 的一个特征值,相应的非零解向量 X 称为属于特征值λ的特征向量. (1)式也可写成, (A-λE)X=0(2) 这是n 个未知数n 个方程的齐次线性方程组,它有非零解的充分必要条件是系数行列式 (3) 即 上式是以 λ 为未知数的一元 …
-
数据挖掘化功大法(11)——线性空间
向量空间又称线性空间,是线性代数的中心内容和基本概念之一。在解析几何里引入向量概念后,使许多问题的处理变得更为简洁和清晰,在此基础上的进一步抽象化,形成了与域相联系的向量空间概念。譬如,实系数多项式的集合在定义适当的运算后构成向量空间,在代数上处理是方便的。单变元实函数的集合在定义适当的运算后,也构成向量空间,研究此类函数向量空间的数学分支称为泛函分析。 向…
-
数据挖掘化功大法(10)——HP Vertica
考虑到企业数据仓库的重要战略意义(EDWs)和每年投入的巨额维护和扩展费用,如何容易地访问这些大量信息资产是非常迫切的需求。然而,许多EDWs成为自己成功的受害者。随着时间的推移,用户获取新问题答案的需要导致EDWs包含的数据量和复杂数据类型发生迅速增长,同时也带来更多的并发和复杂分析的压力。如果企业级数据仓库变得无法应付这种变化,或者服务水平协议(SLA)…
-
网站分析与互联网数据分析挖据的区别
Nancy推荐:关于网站数据分析,一般都会借助第三方分析工具,个人比较推荐99click旗下的siteflow,分析数据指标比较全面,虽然按流量来收费,但是要比免费的GA,使用起来省力很多,而且比较适合商用。另外从这个工具中自己也可以学习到很多网站分析的方法。 一直以来有不少朋友来信或留言,询问网站分析WA(webAnalysis)与互联网数据分析挖掘的区别…
-
数据挖掘化功大法(9)——R语言
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。 一、基本介绍: 1. 警告:在输入命令前请切换到英文模式。否则你的一大段代码可能因为一个中文状态的括号而报错,R语言的报错并不智能无法指出错误的具体位置。最可怕的是不报错但就是无法输出正确结果。 2. 警告:R语言区别大小…
-
数据挖掘化功大法(8)——相似性和相异性
前面说过了数据矩阵和相异性矩阵,并且对标称属性和二元属性的相异性进行了分析。 下面综合看一下矩阵的相异性和相似性。 相似性和相异性被许多数据挖掘技术所使用,如聚类、最近邻分类、异常检测等。两个对象之间的相似度是这两个对象相似程度的数值度量,通常相似度是非负值,并常常在0(不相似)和1(完全相似)之间取值。两个对象之间的相异度是这两个对象差异程度的数值度量,两…
-
数据挖掘化功大法(7)——矩阵
我们将一个对象的一个属性扩展到多个对象的多个属性,就形成了矩阵。 上面就是一个矩阵的示例。 相异性矩阵: 相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)= d(j,i),d(i,i)=0。 相异度矩阵是对…
-
数据挖掘化功大法(6)——显示图表
1、直方图 这个是用的比较多的一种图,可以直观的看出变化的趋势。 2、散点图 用于观察数值变量之间是否存在联系。在图中可以清晰看出数据的相关性。如果Y随着X的增大而增加,则为正相关,如果Y随着X的增大而减小则为负相关。 下图为男女的身高体重分布图:可以看出随着身高和体重呈正相关。 对于多个维度可以使用R语言进行相关性分析。 3、标签云 对于搜索及文字等的观察…