数据挖掘算法
-
朴素贝叶斯分类和预测算法的原理及实现
决策树和朴素贝叶斯是最常用的两种分类算法,本篇文章介绍朴素贝叶斯算法。贝叶斯定理是以英国数学家贝叶斯命名,用来解决两个条件概率之间的关系问题。简单的说就是在已知P(A|B)时如何获得P(B|A)的概率。朴素贝叶斯(Naive Bayes)假设特征P(A)在特定结果P(B)下是独立的。 1. 概率基础: 在开始介绍贝叶斯之前,先简单介绍下概率的基础知识。概率是…
-
新浪微博算法技术总监姜贵彬:大数据驱动下的微博社会化推荐
摘要:不同于搜索,“推荐”通常不是独立的互联网产品,而是互联网产品的核心组件,为该产品的核心目标服务,比如电商网站的推荐是为了达成更多商品交易。微博推荐同样如此,其存在价值就是通过梳理和优化用户关系网络、打通内容传播链条、引爆信息定向传播,从而实现加速高价值用户关系构建、优质内容传播和商业化营收等微博核心目标。 明确了推荐的角色和定位后,设计一个合适的推荐系…
-
一篇文章透彻解读聚类分析及案例实操
摘要:本文主要是介绍一下SAS的聚类案例,希望大家都动手做一遍,很多问题只有在亲自动手的过程中才会有发现有收获有心得。这里重点拿常见的工具SAS+R语言+Python介绍! 1 聚类分析介绍 1.1 基本概念 聚类就是一种寻找数据之间一种内在结构的技术。聚类把全体数据实例组织成一些相似组,而这些相似组被称作聚类。处于相同聚类中的数据实例彼此相同,处于不同聚类…
-
推荐系统算法初探
0. 序言 最近因为PAC平台自动化的需求,开始探坑推荐系统。这个乍一听去乐趣无穷的课题,对于算法大神们来说是这样的: 而对于刚接触这个领域的我来说,是这样的: 在深坑外围徘徊了一周后,我整理了一些推荐系统的基本概念以及一些有代表性的简单的算法,作为初探总结,也希望能抛砖引玉,给同样想入坑的伙伴们提供一些思路。 1、什么是推荐系统? 推荐系统是啥? 如果你是…
-
协同过滤推荐算法的原理及实现
协同过滤推荐算法是诞生最早,并且较为著名的推荐算法。主要的功能是预测和推荐。算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。协同过滤推荐算法分为两类,分别是基于用户的协同过滤算法(user-based collaboratIve filtering),和基于物品的协同过滤算法(item-based col…
-
微信红包的随机算法是怎样实现的?
摘要:最近看了一篇文章,讲微信红包随机算法的。感觉很不错,所以自己实现了下,并进行了简单测试。 算法 算法很简单,不是提前算好,而是抢红包时计算: 红包里的金额怎么算?为什么出现各个红包金额相差很大?答:随机,额度在0.01和剩余平均值*2之间。 实现 实现上述算法的逻辑主要是: LeftMoneyPackage数据结构如下: 测试时初始化相关数据是: 测试…
-
如何做好数据挖掘与数据建模的9条经验总结
数据挖掘是利用业务知识从数据中发现和解释知识(或称为模式)的过程,这种知识是以自然或者人工形式创造的新知识。 当前的数据挖掘形式,是在20世纪90年代实践领域诞生的,是在集成数据挖掘算法平台发展的支撑下适合商业分析的一种形式。也许是因为数据挖掘源于实践而非 理论,在其过程的理解上不太引人注意。20世纪90年代晚期发展的CRISP-DM,逐渐成为数据挖掘过程的…
-
如何判断一笔交易是否属于欺诈 数据挖掘算法与现实生活中的应用案例
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘(Data Mining)的知识,你,或许会有柳暗花明的感觉。 的确,数据挖掘无处不在。它…
-
今日头条CEO张一鸣:隐藏在今日头条百亿市值背后的算法
导读:无论2016年科技圈热门的噱头有多少,对数据基础设施方面的耕耘仍然是决定实力的关键。阿里之类电商数据帝国自不待言,今日头条、一点资讯等在资讯数据领域的开拓更加值得注目。比起电商的物流数据,资讯算法驱动与用户数据分析是更加“触及灵魂”的事情。 1月15日,在头条主办的“珠海未来媒体峰会”上,技术出身的CEO张一鸣走到台前,向台下一众媒体人发表演讲:《我眼…
-
数据挖掘系列篇:网易云音乐的个性化推荐漫谈
用过虾米、酷狗、QQ音乐、网易云音乐,个人感受网易云音乐在音乐推荐这块做的真心不错,特别是以“人”为角度的推荐,没有像虾米、酷狗推的那么乱。虾米还可以,但更多的是以歌搜歌的形式。刚注册了一个新的账号,避免有历史数据的干扰,听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》,然后去个性化推荐里看到了蔡健雅的《红色高跟鞋》和曲婉婷的《承认》,给我的感觉还是比较惊喜,…
-
数据挖掘系列篇:今日头条的个性化推荐
摘要:今日头条作为一种新型的新闻阅读方式,已经将传统的新浪、腾讯、网易、搜狐这些新闻媒体以一种大数据+新闻内容的方式呈现给用户。上线没几年,用户量已经发展到3亿累计用户,日活奔着3000万去。看到这样的数据,小编还是比较震撼。这几乎是目前APP Top10的水平。所以有必要对今日头条好好研究下。 简单来看下今日头条这类的个性化推荐要实现大概是什么样的流程: …
-
如何让神经网络把熊猫识别为秃鹫
摘要:本文作者基于论文阅读及实测,以尝试欺骗神经网络的方式,从工具安装到模型训练,逐步解析神经网络及其背后的数学原理。文章还提供了演示代码下载。 神奇的神经网络 当我打开Google Photos并从我的照片中搜索“skyline”时,它找到了我在八月拍摄的这张纽约地平线的照片,而我之前并未对它做过任何标记。 当我搜索‘cathedral’,Google的神…
-
懂你的推荐算法,推荐逻辑是怎样的?
作为一个喜欢思考人生的美男子,我时常感慨,现在这个年代,人们上网获取信息的成本真的好低。智能手机,人手一台,打开3G就能上网,百度一搜,什么都有。当然百度上搜出来的大多数可能并不是你想要的,但这并不妨碍上面的论点成立。也正是因为成本太低,人们反而不愿意主动取获取信息,于是各种各样的推荐系统有了大展身手的机会。 推荐在生活中是一个再平常不过的事情,你失业了,有…
-
如何从零构建实时的个性化推荐系统?
现在网上到处都有推荐。亚马逊等主流电子商务网站根据它们的页面属性以各种形式向用户推荐产品。Mint.com之类的财务规划网站为用户提供很多建议,比如向用户推荐他们可能想要办理的信用卡,可以提供更好利率的银行。谷歌根据用户搜索历史记录的信息优化搜索结果,找到相关性更高的结果。 这些知名公司使用推荐提供情境化的、有相关性的用户体验,以提高转化率和用户满意度。这些…
-
谷歌邮件智能回复系统:基于循环神经网络构建
摘要:Google推出智能回复是使用深度神经网络训练的撰写email的功能。智能回复系统建立在一对循环神经网络之上,其中一个RNN用于对收到的电子邮件进行编码,而另一个用于预测可能的回复。至今为止,这项功能表现特别出色。 Google将为其Gmail应用推出一项称为智能回复(SmartReply)的新功能,这篇博文解析了SmartReply的技术原理:建立在…