数据挖掘算法

  • 数据挖掘十大经典算法及各自优势

    国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十…

    2015-10-27
    0
  • 数据挖掘算法与生活中的应用案例

    如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘的知识,你,或许会有柳暗花明的感觉。

    2015-10-27
    0
  • 面向程序员的数据挖掘指南3:隐式评价和基于物品的过滤算法

    内容: 显式评价 隐式评价 哪种评价方式更准确? 基于用户的协同过滤 基于物品的协同过滤 修正的余弦相似度 Slope One算法 Slope One的Python实现 MovieLens数据 第二章中我们学习了协同过滤和推荐系统的基本知识,其中讲述的算法是比较通用的,可以适用于多种数据集。用户使用5到10分的标尺来对不同的物品进行打分,通过计算得到相似的用…

    2015-05-03
    0
  • 说说数据挖掘算法工程师的三重境界

    文/不周山 王国维的人生三重境界快被人们念叨烂了,资深文艺青年都已经不爱提这个,但把这种分法做个跨学科应用,倒是能看到一些新奇的东西。 十一前帮新东家在北京做了一轮校园招聘的算法面试官。虽然面试多年,但这还是我第一次如此密集地从事这项工作——一周时间里马不停蹄地面试了数十名候选者。长时间做一件事情,再结合原来类似的背景和经历,通常会发酵出一些东西,于是就有了…

    2015-03-24
    0
  • 数据挖掘化功大法(16)——R中的线性回归

    一元回归 我们使用R中自带的数据集trees。其中包含了Volume(体积)、Girth(树围)、Height(树高)这三个变量。我们需要看的是体积和树转的关系。 查看数据集: > head(trees) Girth Height Volume 1 8.3 70 10.3 2 8.6 65 10.3 3 8.8 63 10.2 4 10.5 72 16…

    2015-01-16
    0
  • 数据挖掘化功大法(15)——线性回归

    线性回归是利用数理统计中的回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多…

    2015-01-15
    0
  • 数据挖掘化功大法(13)——矩阵分解

    矩阵分解 (decomposition,factorization)是将矩阵拆解为数个矩阵的乘积,可分为三角分解、满秩分解、QR分解、Jordan分解和SVD(奇异值)分解等,常见的有三种:1)三角分解法(Triangular Factorization),2)QR 分解法 (QR Factorization),3)奇异值分解法 (Singular Valu…

    2015-01-13
    0
  • 数据挖掘化功大法(8)——相似性和相异性

    前面说过了数据矩阵和相异性矩阵,并且对标称属性和二元属性的相异性进行了分析。 下面综合看一下矩阵的相异性和相似性。 相似性和相异性被许多数据挖掘技术所使用,如聚类、最近邻分类、异常检测等。两个对象之间的相似度是这两个对象相似程度的数值度量,通常相似度是非负值,并常常在0(不相似)和1(完全相似)之间取值。两个对象之间的相异度是这两个对象差异程度的数值度量,两…

    2015-01-08
    0
  • 数据挖掘化功大法(7)——矩阵

    我们将一个对象的一个属性扩展到多个对象的多个属性,就形成了矩阵。 上面就是一个矩阵的示例。 相异性矩阵: 相异度矩阵存储n个对象两两之间的相似性,表现形式是一个n×n维的矩阵。d(i,j)是对象i和j之间相异性的量化表示,通常为非负值,两个对象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)= d(j,i),d(i,i)=0。 相异度矩阵是对…

    2015-01-07
    0
  • 数据挖掘:“啤酒+尿布”的关联规则是怎么来的?

    关联,其实很简单,就是几个东西或者事件是经常同时出现的,“啤酒+尿布”就是非常典型的两个关联商品。

    2015-01-01
    0
  • 阿里巴巴算法工程师笔试题选

    阿里巴巴算法工程师笔试题。

    2014-11-10
    0
  • 身处大数据时代,个性化推荐如何成功落地?

    身处大数据时代,企业有更多的机会去了解消费者,甚至会比消费者自己还要了解自己的需求。但事实上鲜有顾客真正获得精准、贴心的个性化服务,是企业不够用心还是顾客太挑剔?个性化服务落地难的个中缘由到底是什么?身处在数据时代,企业如何快速把握消费者的个性化需求和心理预期?有了庞大数据的支撑,企业的个性化服务会变得更加靠谱、更接地气吗? 大数据的迅速增长及相关技术的发展…

    2014-02-11
    0
  • 常用的推荐系统算法以及优点缺点对比

    在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。

    2014-01-01
    0
  • 电商数据挖掘之关联算法1:“啤酒+尿布”的关联规则是怎么来的?

    “啤酒+尿布”的关联规则是怎么来的?

    2013-10-18
    0
关注我们
关注我们
分享本页
返回顶部