数据挖掘

  • 如何建立时间序列预测模型?

    1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 这两幅图代表了大数据环境下趋势预测的典型场景,即事件预测和时序预测,本文重点关注第二幅图中的场景,即与时间维度相关的时间序列预测。 2. 时间序列预测 时间序列预测即以时间数列所能反映的社会经济现象的发展过程和规律…

    2016-02-08
    0
  • 大嘴巴漫谈数据挖掘:用户招募选样本,发现问题给建议

    下面通过一个实际产品例子来描述可用性测试的整个实施过程,即按照任务流程总结归纳某一电子书城网站的可用性问题,统计各个情境下可用性问题的出现和分布状况,发现高优先级的可用性问题并给出改进建议,以及根据测试结果列出衡量可用性问题的对比指标。其中的测试内容包括针对网站的注册,电子书的试读、购买和赠送。 用户招募是可用性测试中的一个重要环节,且具有一定难度。为了达到…

    2016-02-05
    0
  • 大嘴巴漫谈数据挖掘:试用产品商用前,定性研究分用户

    与可用性测试不同,接下来的试商用测试选取的是产品的真实用户,能够根据用户自发的业务使用行为,获取更为客观且具有实际参考意义的用户反馈,并在产品正式投放市场前尽可能多地修正发现的问题。但有时与最终上市产品相比,在某些方面还会有一定程度的限制,比如使用场所、订购渠道等。 产品试商用时,测试研究通常需要测试用户对产品进行综合评价,汇总产品各个方面的用户反馈信息,一…

    2016-02-05
    0
  • 大嘴巴漫谈数据挖掘:结果分析看指标,完成时间完成率

    在用户数据统计分析中,指标任务完成率和任务完成时间意指根据产品实际情况积累出的参考值,从而作为横向比较指标。通常会将所有任务的任务完成率取平均值,则可得到针对某项产品的平均任务完成率,同理也可得到平均任务完成时间。如上所示,在情境1的任务1.1里,有10%的测试用户未完成任务;有5人的任务完成时间小于平均值,4人的任务完成时间大于平均值。 如上所示,在不同的…

    2016-02-04
    0
  • 大嘴巴漫谈数据挖掘:产品商用需测试,可用测试验原型

    第四时期产品测试是在新产品开发完成以后,为了获取用户对产品的功能、性能等方面的评价,通常会事先邀请符合目标用户特征的潜在用户试用该产品,以便进一步完善和改进产品。 产品测试包括可用性测试和试商用两个步骤。可用性测试意指通过检测产品原型的可用性,来了解用户使用产品的具体情况。试商用则是指将完成可用性测试的新产品小范围投入市场,提供给真实用户使用及体验。 一般来…

    2016-02-03
    0
  • 大嘴巴漫谈数据挖掘:卡片分类排架构,开放聚合按距离

    卡片分类法选择结构设计的最终使用者作为目标用户。用户数量可以根据卡片数量的多少来确定,在没有特别要求的情况下,一般建议15人左右为宜。首先将待分类的内容用一句总结性的语言进行概括描述,然后做成卡片的形式,卡片正面描述分类内容,背面显示标记序号,便于后续统计分析。 如前所述,封闭式卡片分类法最初类别已定,对于某一卡片,用户投入最多选择比例的类别即为该卡片的所属…

    2016-02-01
    0
  • 一个资深数据人对数据挖掘的理解

    在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸索和理解过程中,发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。

    2016-01-30
    0
  • 用大数据挖掘普通人身上KOL的潜力,Robin8能让你在朋友圈里赚钱

    不管是某两性类微信大号在每日推送的末尾突然来一段品牌露出,或者是某星座类微博大 V 总是在分析每日运势时插入一段营销软文,这些互联网中聚集了上百万粉丝的 KOL(意见领袖)早已在互联网中找到舒服的赚钱方式,可这放在普通人身上是否可以实现呢?一家公司想用数据分析的方式试试看。 Robin8 就是这样一个营销工具,在该平台上,普通人也可以利用自己的影响力帮助品牌…

    2016-01-27
    0
  • 非一般的数据挖掘机:关联规则法

    机器学习中的许多数据挖掘方法主要是针对数值型数据的,算法也很偏向数理方法(例如支持向量机)。而分类数据(非数值型数据),其本质不过是简单的计数,针对这类数据的一个简单实用的方法就是关联规则挖掘法,谷歌的MapReduce也为这类算法提供了很好的软件构架。下面我们就来讨论一下应用关联规则法的有趣实例。 关联规则法的核心在于研究一些经常相伴发生的事件之间的关系,…

    2016-01-27
    0
  • 你用Python做过什么有趣的数据挖掘项目?

    本文授权转载自知乎回答-何明科,作者:何明科系一面网络技术有限公司创始人。作者现身说法,用自己的创业历程举例说明:有钱很重要,有趣更重要。 第零步:原点,大数据与价值 大概一年多以前,和几个小伙伴均认同一个趋势:觉得通过技术手段获取网上越来越丰富的数据,并基于这些数据做分析及可视化,必能产生有价值的结果,帮助大家改善生活。(大数据被叫烂了,所以用低调的方式来…

    2016-01-26
    0
  • 数据挖掘系列篇:网易云音乐的个性化推荐漫谈

    用过虾米、酷狗、QQ音乐、网易云音乐,个人感受网易云音乐在音乐推荐这块做的真心不错,特别是以“人”为角度的推荐,没有像虾米、酷狗推的那么乱。虾米还可以,但更多的是以歌搜歌的形式。刚注册了一个新的账号,避免有历史数据的干扰,听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》,然后去个性化推荐里看到了蔡健雅的《红色高跟鞋》和曲婉婷的《承认》,给我的感觉还是比较惊喜,…

    2016-01-25
    0
  • 数据挖掘系列篇:今日头条的个性化推荐

    摘要:今日头条作为一种新型的新闻阅读方式,已经将传统的新浪、腾讯、网易、搜狐这些新闻媒体以一种大数据+新闻内容的方式呈现给用户。上线没几年,用户量已经发展到3亿累计用户,日活奔着3000万去。看到这样的数据,小编还是比较震撼。这几乎是目前APP Top10的水平。所以有必要对今日头条好好研究下。 简单来看下今日头条这类的个性化推荐要实现大概是什么样的流程: …

    2016-01-24
    0
  • 大嘴巴漫谈数据挖掘:产品研发生原型,参与设计供方案

    第三时期产品研发将针对第二时期筛选出的产品概念,按照以用户为中心的理念开始设计产品。首先根据目标用户的使用习惯并结合用户对产品的期望要求,设计出产品原型。然后基于用户对原型产品可用性的反馈评估,不断优化改进产品,以确保研发出的最终产品符合用户需要。 产品原型可以看做与用户沟通时使用的一种表现形式,诸如纸笔原型、线框图、产品测试版等,主要用来展现产品与用户之间…

    2016-01-23
    0
  • 大嘴巴漫谈数据挖掘:需求概念生产品,定性研究定类型

    第二时期产品概念评估基于第一时期目标用户细分的基础上,通过挖掘具体的业务需求,从而进一步生成产品概念,即满足用户需求最初的产品设想。当然,也不是所有的产品概念都是有价值的,只有依托大量产品设想,针对已生成的产品概念,通过有效评估,选出其中最可能为用户所接受的。此处主要涉及需求程度和概念得分两个关键指标。 在整个概念评估时期,研究重点主要是挖掘用户需求,评估产…

    2016-01-21
    0
  • 大嘴巴漫谈数据挖掘:用户调查基样本,街头面访寻偏好

    随后的定量分析以定性研究为基础,基于一定数量样本,对用户的行为和态度进行分析挖掘,细分出不同特征的用户群体,并加以描述。此处采用了一种叫街头面访的分析方法,即在一个相对固定、安静适宜的场所环境内,开展一个较长时间的访问。 接下来先要进行样本筛选及确定问卷结构。样本筛选主要是确定样本量和抽样方法,问卷结构则包括需要调研的各个方面,如生活轨迹、需求偏好等。 在样…

    2016-01-20
    0
关注我们
关注我们
分享本页
返回顶部