数据挖掘

  • 论推荐系统的Exploitation和Exploration

    一个推荐系统,如果片面优化用户的喜好,很可能导致千篇一律的推荐结果。文中曾经用了一节来讨论为什么使用Exploitation & Exploration (E & E)结果可能依然不能“免俗”。其实,E & E是推荐系统里很有意思,但也非常有争议的一个算法。一方面,大家都基本明白这类算法的目的,每年有很多相关论文发表。另一方面,这是工…

    2016-05-01
    0
  • 大数据分析实习生应该如何选择职业方向?

    最近逃离学校在某大数据公司实习,虽然我不认为大数据像现在很多人说的那么邪乎,但是我认为互联网时代所带来的大量数据是很有价值的。

    2016-05-01
    0
  • 不谈技术,谈谈数据分析师从0到1的9个进阶法则

    和大家一起交流一下我心中的女数据分析师。 数据分析师发展会有几个层次,初级数据分析师,“表哥、表妹、表姐、表弟”,以统计工作为主。中级数据分析师会涉及到一些图表展现、模型、预测、推导等工作,到了中高级的数据分析师,就会涉及到一些关键指标的设定,以及数据产品或数据体系的规划。进入高级数据分析的阶段之后,就会涉及战略规划层面,比如业务发展方向预判、预算分配等。 …

    2016-04-30
    0
  • 数据分析师入门选手经验谈

    不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。 所需要的技能 做数据分析,统计的知识肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。 我是做数据挖掘的,所以重点讲一下数据挖掘方面的技能。我本身是学数学专业的,接触数学比较多。数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代…

    2016-04-30
    0
  • R语言数据挖掘实战案例:电商评论情感分析

    随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个…

    2016-04-27
    0
  • 《数据驱动精准化营销在大众点评的实践》读后感

    摘要:本文是《数据驱动精准化营销在大众点评的实践》这篇文章的读后感,其中斜体为点评。 精准化营销一直以来都是互联网营销业务在细分市场下快速获取用户和提高转化的利器。在移动互联网爆发的今天,数据量呈指数增长,如何在移动和大数据场景下用数据驱动进行精准营销,从而提高营销效能,成为营销业务部门的主要挑战之一,同时也是大数据应用的一个重要研究方向。本文通过数据体系架…

    2016-04-27
    0
  • 基于统计学模型的无指导中文文本分析

    摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。 邓柯:今天下午非常荣幸参加这样的活动,也非常感谢活动的主办方,清华大学数据科学研究院的邀请。今天给大家分享一个我们最近做的工作。 刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士。北大毕业之后到哈佛大学统计系,做了几年博士后,做了一些研究…

    2016-04-26
    0
  • 知道这20个正则表达式,能让你少写1,000行代码

    正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。 正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码: 下面是技匠整理的,在前端开发中经常使用到的20个正则表达式。 1 . 校验密码强…

    2016-04-25
    0
  • Python爬虫进行Web数据挖掘总结和分析

    利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析。

    2016-04-24
    0
  • 机器学习揭秘47万微信群背后的数字以及9大规律

    摘要:微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香港科技大学的研究人员采用了机器学习算法分析了47万+的微信群、2亿+微信用户、6亿+的好友关系和200万+邀请记录,揭秘微信群背后的数字以及 9 大规律。 The Lifecycle and C…

    2016-04-24
    0
  • 矩阵分解在推荐系统中的应用:NMF和经典SVD实战

    摘要:本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 itemuser Ben Tom John Fred item 1 5 5 0 5 item 2 5 0 3 4 item 3 3 4 0 3 item 4 0 0 5 3 item 5 5 4 4 5 item 6 5 4 5 5 useritem item 1 item 2 i…

    2016-04-23
    0
  • 地理数据可视化的3大疑问:Simple,Not Easy!

    Simple,Not Easy 笔者产生了第几个疑问: 用户自有数据的管理是不是足够了 如何保障这些平台提供的地理大数据的准确性 地理可视化是本还是末 如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一。在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央视的春运迁徙图到旅游热点预测,从大数据工程师奇货可居到马云布…

    2016-04-23
    0
  • K-Means聚类算法的原理及实现

    K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。 K值及初始质心 K值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K值决定了初始质…

    2016-04-23
    0
  • 【世界读书日】数据狂人必备的10本全球畅销书

    对于一位数据科学的狂热粉丝而言,可供选择阅读的书籍内容很多,包括大数据、机器学习、数据科学以及数据挖掘等等。除了这些技术范围内的书籍之外,也有很多工具类和语言类的书籍,比如Hadoop、Spark、Python和R语言等。关于数据的书籍和专题时常更新,所以只有你掌握了最新的信息才可以让你掌握这个领域内最先进的技术和技能。幸运的是(或者也可以称之为不幸)关于数…

    2016-04-23
    0
  • 个性化推荐应用很low?绝对是知识精英赤果果的偏见!

    去年以来,参加了不少会议,会议上不少专家忧心忡忡地批判以今日头条为代表的个性化推荐引擎,其理由无非是造成知识窄化、低俗化和不精准等陈词滥调,现在还只能说出这些理由只能说明他们根本不了解个性化推荐。 知识窄化是知识精英的误判 所谓知识窄化,是指人们的知识在某一方面或某一方向高度集中,导致知识,越来越收缩。知识窄化并不是一个新名词,曾记得当微博兴起时,不少专家就…

    2016-04-22
    0
关注我们
关注我们
分享本页
返回顶部