数据挖掘
-
粗糙的贝叶斯转化概率预测模型
转化率是网站分析中最受关注的指标之一,如何设定转化率目标?哪些用户最有可能转化?他们有哪些特征?如何发现并找到这些用户?这些都是负责网站运营和市场营销的同学最关注的问题。本篇文章通过贝叶斯算法对网站中已经完成转化的历史用户数据进行分析,发现购买转化用户的特征,并通过交叉细分对不同用户购买转化的概率进…
-
新闻推荐,追逐卡戴珊的“屁股”
前一阵子,有一篇新闻文章叫“雅虎记者的困扰:与卡戴珊的屁股竞争”,讲的是雅虎公司的一群高级记者所写的文章与推荐系统所推荐的文章相互竞争协调的事情,里面提到的现象可能很多做推荐系统开发的人都感同身受,似曾相识。那么今天,我们不谈具体的公司具体的案例,而来聊一下推荐系统开发中遇到“推荐结果和自己的直觉不…
-
论推荐系统的Exploitation和Exploration
一个推荐系统,如果片面优化用户的喜好,很可能导致千篇一律的推荐结果。文中曾经用了一节来讨论为什么使用Exploitation & Exploration (E & E)结果可能依然不能“免俗”。其实,E & E是推荐系统里很有意思,但也非常有争议的一个算法。一方面,大家都基本…
-
大数据分析实习生应该如何选择职业方向?
最近逃离学校在某大数据公司实习,虽然我不认为大数据像现在很多人说的那么邪乎,但是我认为互联网时代所带来的大量数据是很有价值的。
-
不谈技术,谈谈数据分析师从0到1的9个进阶法则
和大家一起交流一下我心中的女数据分析师。 数据分析师发展会有几个层次,初级数据分析师,“表哥、表妹、表姐、表弟”,以统计工作为主。中级数据分析师会涉及到一些图表展现、模型、预测、推导等工作,到了中高级的数据分析师,就会涉及到一些关键指标的设定,以及数据产品或数据体系的规划。进入高级数据分析的阶段之后…
-
数据分析师入门选手经验谈
不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。 所需要的技能 做数据分析,统计的知识肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。 我是做数据挖掘的,所以重点讲一下数据挖掘方面的技能。我本身是学数学专业的,接触数学比较多。数据挖掘要从海量数据中发…
-
R语言数据挖掘实战案例:电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 …
-
《数据驱动精准化营销在大众点评的实践》读后感
摘要:本文是《数据驱动精准化营销在大众点评的实践》这篇文章的读后感,其中斜体为点评。 精准化营销一直以来都是互联网营销业务在细分市场下快速获取用户和提高转化的利器。在移动互联网爆发的今天,数据量呈指数增长,如何在移动和大数据场景下用数据驱动进行精准营销,从而提高营销效能,成为营销业务部门的主要挑战之…
-
基于统计学模型的无指导中文文本分析
摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。 邓柯:今天下午非常荣幸参加这样的活动,也非常感谢活动的主办方,清华大学数据科学研究院的邀请。今天给大家分享一个我们最近做的工作。 刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士…
-
知道这20个正则表达式,能让你少写1,000行代码
正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。 正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码: 下面是技匠整理的,在…
-
Python爬虫进行Web数据挖掘总结和分析
利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析。
-
机器学习揭秘47万微信群背后的数字以及9大规律
摘要:微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香港科技大学的研究人员采用了机器学习算法分析了47万+的微信群、2亿+微信用户、6亿+的好友关系和200万+邀请记录,揭秘微信群背后的数…
-
矩阵分解在推荐系统中的应用:NMF和经典SVD实战
摘要:本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 itemuser Ben Tom John Fred item 1 5 5 0 5 item 2 5 0 3 4 item 3 3 4 0 3 item 4 0 0 5 3 item 5 5 4 4 5 item 6 5 …
-
地理数据可视化的3大疑问:Simple,Not Easy!
Simple,Not Easy 笔者产生了第几个疑问: 用户自有数据的管理是不是足够了 如何保障这些平台提供的地理大数据的准确性 地理可视化是本还是末 如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一。在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央…
-
K-Means聚类算法的原理及实现
K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。 K值及初始质心 K值是聚类结果中类别的数…