数据挖掘算法

  • 使用混淆矩阵(Confusion matrix)对分类模型进行评估

    本篇文章我们介绍一种对分类模型进行效果评估的方法:混淆矩阵(Confusion matrix)。

    2016-05-28
    0
  • 解密Uber数据科学团队路径选择算法的优化之路

    一键用车现在已经烂大街,但是 Uber 简单的界面下又隐藏着怎样复杂的后端架构和服务呢?这些复杂的路径规划和订单匹配算法又是如何让车找到人,将人送到目的地的呢?现在让我们揭开Uber App这神秘的面纱。

    2016-05-28
    0
  • 滴滴Di-Tech算法大赛,头奖10万美金

    继上周获得苹果10亿美金投资之后,滴滴在本周的第一个动态是宣布Di – Tech算法大赛——悬赏让开发者提供有可能优化滴滴出行服务的算法,冠军最高能获得10万美金。

    2016-05-18
    0
  • 决策树算法真的越复杂越好吗?

    对大数据感兴趣的你想必一定知道决策树这个名词吧,是不是也听说过其中各种复杂的组合算法呢?不过,在实际业务中,复杂的算法一定优于简单的算法吗?No……如果你觉得自己认识得还不够深入、全面,或者还缺乏实践的机会,请仔细阅读这篇专业长文。

    2016-05-15
    0
  • 【案例】洛杉矶警局如何用算法预测并制止犯罪行为

    洛杉矶警局与加州大学洛杉矶分校合作,采集分析了80年来1300万起犯罪案件,用于进行犯罪行为的大型研究,通过算法预测成功将相关区域的犯罪率降低了36个百分点。

    2016-05-09
    0
  • 大嘴巴漫谈数据挖掘:定位目标找用户,分类筛选决策树

    数据挖掘中的决策树算法是一个广泛应用的判别方法,可以将一个决策流程映射到一个树形结构上,同时满足特征属性描述的简洁性和分类结果预测的准确性。

    2016-05-04
    0
  • 新闻推荐,追逐卡戴珊的“屁股”

    前一阵子,有一篇新闻文章叫“雅虎记者的困扰:与卡戴珊的屁股竞争”,讲的是雅虎公司的一群高级记者所写的文章与推荐系统所推荐的文章相互竞争协调的事情,里面提到的现象可能很多做推荐系统开发的人都感同身受,似曾相识。那么今天,我们不谈具体的公司具体的案例,而来聊一下推荐系统开发中遇到“推荐结果和自己的直觉不相符合怎么办”这个事情该怎么办。 记者和编辑的抱怨 你是一个…

    2016-05-01
    0
  • 论推荐系统的Exploitation和Exploration

    一个推荐系统,如果片面优化用户的喜好,很可能导致千篇一律的推荐结果。文中曾经用了一节来讨论为什么使用Exploitation & Exploration (E & E)结果可能依然不能“免俗”。其实,E & E是推荐系统里很有意思,但也非常有争议的一个算法。一方面,大家都基本明白这类算法的目的,每年有很多相关论文发表。另一方面,这是工…

    2016-05-01
    0
  • 矩阵分解在推荐系统中的应用:NMF和经典SVD实战

    摘要:本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 itemuser Ben Tom John Fred item 1 5 5 0 5 item 2 5 0 3 4 item 3 3 4 0 3 item 4 0 0 5 3 item 5 5 4 4 5 item 6 5 4 5 5 useritem item 1 item 2 i…

    2016-04-23
    0
  • K-Means聚类算法的原理及实现

    K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。 K值及初始质心 K值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K值决定了初始质…

    2016-04-23
    0
  • 搭建电商平台的标签系统?看这就够了

    摘要:如何建立电商平台的标签系统? 期待该问题的优质回答,给所有需要设计标签系统的童鞋一个很好的指引,简要说明一下要做的事情: 1.电商系统的标签,可以支持前台分类的搜索(或者叫查询?) 2.电商系统的标签,可以支持某个关键词搜索出的产品的筛选 3.电商系统的标签,可以支持给商品、用户、供应商、产品、评价等多个维度大标签。 ▍陆志亚 上海商米科技 产品经理 …

    2016-04-12
    0
  • 数据挖掘系列篇:Facebook内容排序算法研究

    摘要:最近研究了下Facebook内容排序问题,这个在新浪微博、知乎内容排序这些场景下都应用到。主要是关于edgerank的算法讨论以及Facebook的AB test机制。 EdgeRank 是Facebook 在 F8 开发者大会上提出的对 fb 新鲜事 (Feeds) 排序的新算法, 用于区别默认的按时间逆序的 timeline。 要解决的问题就像@宋…

    2016-04-10
    0
  • 数据挖掘:周期性分析SMCA算法简介

    摘要:周期性分析SMCA算法简介 算法介绍 以时间顺序挖掘周期性的模式(即周期性分析)是一种重要的数据挖掘方式,在以前的研究中我们假设每个时间点只发生一个事件,然而在这篇文章中我们研究一种更普遍的模式:即在每个时间点可以发生多个事件。 在这个算法中我们需要自己设置三个参数:min_rep, max_dis, global_rep。分别代表“一个有效序列的最小…

    2016-04-05
    0
  • 【SAS宏】拼手气红包该怎么抢?让微信红包的随机算法来告诉你

    摘要:看到一篇讲微信拼手气红包算法的,又回想起今年抢红包屡败屡战,手气捉急,所以用SAS实现了一下抢红包算法,一探究竟。 推荐阅读:微信红包的随机算法是怎样实现的? 算法如下每个红包的金额在0.01和剩余平均值*2之间产生。 例如:发100块钱,总共10个红包,那么平均值应该是10块钱一个,那么第一个抢到红包的额度在0.01-20元之间随机确定。又当前面3个…

    2016-04-04
    0
  • SAS-EM 决策树操作案例

    摘要:决策树主要用来描述将数据划分为不同组的规则。第一条规则首先将整个数据集划分为不同大小的子集,然后将另外的规则应用在子数据集中,数据集不同相应的规则也不同,这样就形成第二层数据集的划分。一般来说,一个子数据集或者被继续划分或者单独形成一个分组。 1 预测模型案例概述 一家金融服务公司为客户提供房屋净值贷款。该公司在过去已经拓展了数千净值贷款服务。但是,在…

    2016-04-04
    0
关注我们
关注我们
分享本页
返回顶部