数据挖掘
-
大嘴巴漫谈数据挖掘:问卷测试评分项,测试结果分析中
在产品试商用的定量测试结果分析中,首先通过实际数据展示了产品下载安装成功率的具体情况。如上所示,可以看出,其中有90%的测试用户安装成功,有10%的测试用户出现了问题,而安装不成功主要归咎于三种情况,应重点关注并及时改进完善。 接下来的产品偏好评价方面,如上所示,最上面描述了影响产品各…
-
大嘴巴漫谈数据挖掘:深入评价需定量,问卷测试评分项
通过定性研究,深入了解用户的产品使用行为、探索归纳出使用过程中遇到的障碍和问题,并对这些问题作出详细合理的解释,为随后的定量分析做准备。 结合定性研究总结出的主要问题,定量分析通过结构化的问卷调研了解用户的行为特征,如用户下载安装、使用地点、使用频率,以及对产品功能、价格和名称等方面的评价,并进行量…
-
数据挖掘的常用方法、功能和一个聚类分析应用案例
摘要:笔者整理了数据挖掘的常用方法和数据挖掘的重要功能(出自MBA智库百科)。当然,横看成岭侧成峰,这些常用方法和重要功能也许并不完全正确或完整。除此以外,笔者尝试学习了SMARTBI公司中的Smart Mining软件,并跟随其提供的示例教程进行了学习。为方便阅读,将其示例教程结合自己的体会作为文…
-
如何判断一笔交易是否属于欺诈 数据挖掘算法与现实生活中的应用案例
“如何分辨出垃圾邮件”、“如何判断一笔交易是否属于欺诈”、“如何判断红酒的品质和档次”、“扫描王是如何做到文字识别的”、“如何判断佚名的著作是否出自某位名家之手”、“如何判断一个细胞是否属于肿瘤细胞”等等,这些问题似乎都很专业,都不太好回答。但是,如果了解一点点数据挖掘(Data Mining)的知…
-
如何建立时间序列预测模型?
1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 这两幅图代表了大数据环境下趋势预测的典型场景,即事件预测和时序预测,本文重点关注第二幅图中的场景,即与时间维度相关的时间序列预测。 2. 时间序列预测 时…
-
大嘴巴漫谈数据挖掘:用户招募选样本,发现问题给建议
下面通过一个实际产品例子来描述可用性测试的整个实施过程,即按照任务流程总结归纳某一电子书城网站的可用性问题,统计各个情境下可用性问题的出现和分布状况,发现高优先级的可用性问题并给出改进建议,以及根据测试结果列出衡量可用性问题的对比指标。其中的测试内容包括针对网站的注册,电子书的试读、购买和赠送。 用…
-
大嘴巴漫谈数据挖掘:试用产品商用前,定性研究分用户
与可用性测试不同,接下来的试商用测试选取的是产品的真实用户,能够根据用户自发的业务使用行为,获取更为客观且具有实际参考意义的用户反馈,并在产品正式投放市场前尽可能多地修正发现的问题。但有时与最终上市产品相比,在某些方面还会有一定程度的限制,比如使用场所、订购渠道等。 产品试商用时,测试研究通常需要测…
-
BuzzFeed如何用算法找出打假球的网球选手
新闻聚合网站 BuzzFeed 以善于挖掘眼球著称,其新闻经常能炮制出很多话题。其中的奥秘在于它是一家以数据为驱动的公司。现在这家网站又利用大数据做出了一篇有关顶级男子网球选手打假球的深度报道。该网站的记者 John Templon 与 BBC 通过利用算法,对 2009 到 2015年 的 260…
-
大嘴巴漫谈数据挖掘:结果分析看指标,完成时间完成率
在用户数据统计分析中,指标任务完成率和任务完成时间意指根据产品实际情况积累出的参考值,从而作为横向比较指标。通常会将所有任务的任务完成率取平均值,则可得到针对某项产品的平均任务完成率,同理也可得到平均任务完成时间。如上所示,在情境1的任务1.1里,有10%的测试用户未完成任务;有5人的任务完成时间小…
-
大嘴巴漫谈数据挖掘:产品商用需测试,可用测试验原型
第四时期产品测试是在新产品开发完成以后,为了获取用户对产品的功能、性能等方面的评价,通常会事先邀请符合目标用户特征的潜在用户试用该产品,以便进一步完善和改进产品。 产品测试包括可用性测试和试商用两个步骤。可用性测试意指通过检测产品原型的可用性,来了解用户使用产品的具体情况。试商用则是指将完成可用性测…
-
大嘴巴漫谈数据挖掘:卡片分类排架构,开放聚合按距离
卡片分类法选择结构设计的最终使用者作为目标用户。用户数量可以根据卡片数量的多少来确定,在没有特别要求的情况下,一般建议15人左右为宜。首先将待分类的内容用一句总结性的语言进行概括描述,然后做成卡片的形式,卡片正面描述分类内容,背面显示标记序号,便于后续统计分析。 如前所述,封闭式卡片分类法最初类别已…
-
一个资深数据人对数据挖掘的理解
在银行做了两年的数据分析和挖掘工作,较少接触互联网的应用场景,因此,一直都在思考一个问题,“互联网和金融,在数据挖掘上,究竟存在什么样的区别”。在对这个问题的摸索和理解过程中,发现数据挖掘本身包含很多层次。并且模型本身也是存在传统和时髦之分的。本文就想聊聊这些话题。
-
非一般的数据挖掘机:关联规则法
机器学习中的许多数据挖掘方法主要是针对数值型数据的,算法也很偏向数理方法(例如支持向量机)。而分类数据(非数值型数据),其本质不过是简单的计数,针对这类数据的一个简单实用的方法就是关联规则挖掘法,谷歌的MapReduce也为这类算法提供了很好的软件构架。下面我们就来讨论一下应用关联规则法的有趣实例。…
-
你用Python做过什么有趣的数据挖掘项目?
本文授权转载自知乎回答-何明科,作者:何明科系一面网络技术有限公司创始人。作者现身说法,用自己的创业历程举例说明:有钱很重要,有趣更重要。 第零步:原点,大数据与价值 大概一年多以前,和几个小伙伴均认同一个趋势:觉得通过技术手段获取网上越来越丰富的数据,并基于这些数据做分析及可视化,必能产生有价值的…
-
数据挖掘系列篇:网易云音乐的个性化推荐漫谈
用过虾米、酷狗、QQ音乐、网易云音乐,个人感受网易云音乐在音乐推荐这块做的真心不错,特别是以“人”为角度的推荐,没有像虾米、酷狗推的那么乱。虾米还可以,但更多的是以歌搜歌的形式。刚注册了一个新的账号,避免有历史数据的干扰,听了一首周杰伦的《一路向北》和陈奕迅的《淘汰》,然后去个性化推荐里看到了蔡健雅…