数据分析侠专栏
-
数据开发系列篇:大数据处理和编程实践Hadoop
Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。对于我来说,最近的一个使用点就是服务集成平台的日志分析。服务集成平台的日志量将会很大,而这也正好符合了分布式计算的适用场景(日志分析和索引建立就是两大应用场景)。 当前没有正式确定使用,所以也是自己业余摸索,后续所写的相关…
-
数据挖掘系列篇:Facebook内容排序算法研究
摘要:最近研究了下Facebook内容排序问题,这个在新浪微博、知乎内容排序这些场景下都应用到。主要是关于edgerank的算法讨论以及Facebook的AB test机制。 EdgeRank 是Facebook 在 F8 开发者大会上提出的对 fb 新鲜事 (Feeds) 排序的新算法, 用于区别默认的按时间逆序的 timeline。 要解决的问题就像@宋…
-
数据分析系列篇:数据分析侠VS“老炮儿”六爷
《老炮儿》讲述的是北京的一辈儿六爷Mr.Six不愿接受新时代的潮流,蜗居在自己的小胡巷子里,而自己的儿子因为划了豪车被绑架,六爷去赎回儿子的一段故事。虽然说最后六爷发现被这个社会抛弃,但是他那股有老礼儿、重义气、讲规则的性格还是给大家留下了很深刻的印象。 为什么想到说把数据分析师和老炮儿联系到一起了呢? 前段时间听了某XX资深数据分析专家(我们也称之为“六爷…
-
数据运营系列篇:个性化推荐进入场景推荐时代
做推荐系统应该来说也有段时间了,而运营过程中通过推荐智能貌似已经成了烂大街的套路,给你发条短信、推个push、打个小红点、发了广告banner,而作为用户现在也有些变化的麻木了,今天还和郭太讨论了这个事情,本来是找算法团队一起讨论如下做线下O2O场景的问题,聊了聊具体的需要哪些数据,怎么将这其中的数据串联起来,还原当时的用户场景。 数据质量上首先就遭到算法同…
-
数据分析系列篇:Amazon亚马逊数据分析师工作交流
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指…
-
数据运营系列篇:淘宝卖家数据分析攻略
这两天陆续有一些自己经营淘宝或者天猫的店铺朋友咨询数据分析,该怎么入门。过去讲数据分析比较多,更多的是从一名数据分析从业者的角度去思考的。作为目前最大电子商务平台淘宝这样的平台,很多卖家自己对数据分析这块也不是特别了解,无法做到“知自知彼”,对自己店铺的经营情况停留于脑海的影响,对这个类目行业大环境和竞争对手也没有太清晰的认识。 阿里自身相应到考虑到还有千千…
-
数据挖掘系列篇:网易云音乐的个性化推荐漫谈
用过虾米、酷狗、QQ音乐、网易云音乐,个人感受网易云音乐在音乐推荐这块做的真心不错,特别是以“人”为角度的推荐,没有像虾米、酷狗推的那么乱。虾米还可以,但更多的是以歌搜歌的形式。刚注册了一个新的账号,避免有历史数据的干扰,听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》,然后去个性化推荐里看到了蔡健雅的《红色高跟鞋》和曲婉婷的《承认》,给我的感觉还是比较惊喜,…
-
数据挖掘系列篇:今日头条的个性化推荐
摘要:今日头条作为一种新型的新闻阅读方式,已经将传统的新浪、腾讯、网易、搜狐这些新闻媒体以一种大数据+新闻内容的方式呈现给用户。上线没几年,用户量已经发展到3亿累计用户,日活奔着3000万去。看到这样的数据,小编还是比较震撼。这几乎是目前APP Top10的水平。所以有必要对今日头条好好研究下。 简单来看下今日头条这类的个性化推荐要实现大概是什么样的流程: …
-
数据分析系列篇:数据采集哪家强?
说到我们要做数据分析,没有米下锅怎么行?没有数据,我们还怎么做数据分析?前几天有个哥们在现场就问我,说我们是一家创业公司,我们也非常想做数据分析、机器学习这些,但是我们没有数据啊!这可怎么办?我们也不懂这些数据从哪儿来,更不懂技术方面的东西,公司也就几个人,还都是从传统公司或者刚毕业的。 当时我就给他打了个比喻,这就有点像我们没米怎么煮饭一样。如果真的没米了…
-
数据挖掘系列篇:在线机器学习FTRL算法介绍
最近几个同事在做推荐平台的项目,都问到怎么实现FTRL算法,要求协助帮忙实现FTRL的算法模块。今天也是有空,赶紧来做个整理。明天还要去上海参加天善智能组织的FLY BI大数据分享会。有兴趣参加线下活动的可以多关注下微博和微信的信息。没事可以多参加分享分享。现在特别是像做在线学习和CTR这块,应用LR是最广泛的。但是批量处理超大规模的数据集和在线数据流时就遇…
-
数据挖掘系列篇:推荐系统综述以及美团推荐系统介绍
其实推荐系统前面已经讲过不少,那时候主要是放在机器学习上讲的,既然这次要系统撸一遍数据挖掘,就把推荐系统单独拿出来说一说。相信如果做过推荐系统的人,都知道是什么回事。一堆features,一堆算法模型,一堆online、offline规则和计算,还有若干的场景。包括著名的netflix、Amazon做的推荐场景都有哪些,有哪些坑需要注意的,之前都有说过。没看…
-
数据分析系列篇:数据指标体系建立
摘要:数据指标是数据分析很重要的原材料,比如我作为一家电商公司,我的网站运营的如何?每天的流量是多少?新老卖家买家都是什么占比?产品类目销售情况是什么样子?这些都是作为一家电商公司每天都需要去监控和关注的。 一家企业建立的数据分析体系通常细分到了具体可执行的部分,可以根据设定的某个指标的异常变化,相应立即执行相应的方案,来保证企业的运营的正常进行。 本篇重点…
-
数据夜话:机器学习的七嘴八舌
其实数据挖掘、机器学习一直在接触,只是没有像今年这样面对这么大的数据量和业务种类。应该来说数据分析也是做了很久,一直对机器学习这块怀揣着敬畏的心情,就像面对“大自然”的力量一样。相信很多包括产品、运营、技术开发的同学都算法这块都是一种觉得很高深的态度,而事实上的确机器学习、算法也很难,从各大招聘渠道信息也可以看得出来,什么硕士、博士,XX名校等。 一方面本身…
-
数据挖掘系列篇:聚类算法概述
本篇重点介绍聚类算法的原理,应用流程、使用技巧、评估方法、应用案例等。具体的算法细节可以多查阅相关的资料。聚类的主要用途就是客户分群。1.聚类 VS 分类 分类是“监督学习”,事先知道有哪些类别可以分。 聚类是“无监督学习”,事先不知道将要分成哪些类。 举个例子,比如苹果、香蕉、猕猴桃、手机、电话机。根据特征的不同,我们聚类会分为【苹果、香蕉、猕猴桃】为水果…
-
炒股魅力:数据分析侠变身“赚钱机器”
摘要:曾经有这么一群人,他们每天早上8点打开软件,调试着各种交易工具,确保每天能够正常运行。9点开盘了,静静的看着交易软件的自动买入卖出。中午吃个饭,下午继续这样的工作。晚上想一想算法模型,思考一下人生,再算一下当日的最新净值。他们是可能改变华尔街研究员的一类人,被戏称为疯狂的赚钱机器。 我们如今生活在一个数据爆炸的世界里。百度每天响应超过60亿次的搜索请求…