数据挖掘
-
京东打造风控“天网”,大数据让刷单无处遁形
摘要:现如今,网购已经成为人们生活中的重要消费习惯,然而因为商品看得见、摸不着,用户只能透过店铺信誉、成交量、买家评价等信息来判断店家是否“靠谱”。这些数据会形成用户对商家信赖度的重要影响,直接决定是否在该店铺进行消费。这些本应是真实体现商家经营状况的数据,却出现了大量的造假行为——雇人通过虚假交易换取虚假好评,让普通消费者的利益蒙受损失。 京东很早就提出了…
-
海量数据挖掘最优解?机器学习!
摘要:机器学习是大数据挖掘的一大基础,本文以机器学习为切入点,分享达观在大数据技术实践时的一些经验。 大数据时代里,互联网用户每天都会直接或间接使用到大数据技术的成果,直接面向用户的比如搜索引擎的排序结果,间接影响用户的比如网络游戏的流失用户预测、支付平台的欺诈交易监测等等。 互联网的海量数据不可能靠人工一个个处理,只能依靠计算机批量处理。最初的做法是人为设…
-
漫谈:机器学习和数据挖掘中一些常见的距离公式和相似性度量方法
在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。一般而言,定义一个距离函数 d(x,y), 需要满足下面几个准则: 1) d(x,x) = 0 …
-
大嘴巴漫谈数据挖掘:外部调研看态度,主观客观双结合
在具体的研究过程中,分为外部调研和内部数据分析两个过程。 外部调研包括用户消费习惯和使用态度的研究,一是通过搜集用户基本属性信息以及使用产品的行为偏好信息来了解用户对产品的认知程度;二是通过搜集用户使用产品的反馈信息来了解用户对产品各方面的评价。 内部数据分析方法主要用来目标用户识别,依照用户的产品订购及使用行为,从多个维度对目标用户进行分析,以此了解用户使…
-
不会写代码也要做增长黑客–产品经理常用数据分析工具
摘要:最近增长黑客比较热,产品经理也想变身增长黑客推动产品快速发展,但自己又不会写代码,很多创新无法实现,工欲善其事必先利其器,给大家介绍一下我在创业公司常用的工具,今天主要是跟数据有关的。 一、数据收集 1、网站&APP统计–Google Analytics(GA) 2、竞品网页数据抓取–八爪鱼 二、数据可视化 1、Exce…
-
机器学习必备的7项技能包
摘要:机器学习经常与人工智能紧密相连,在不考虑显式编程的情况下,机器学习可以使计算机具备完成特定任务的能力,例如识别,诊断,规划,机器人控制和预测等。它往往聚焦于算法创新,即在面对新数据时,其自身能够发生演化。 在某种程度上,机器学习与数据挖掘很相似。它们都是通过数据来获取模式。然而,与人类可理解的数据提取方式不同—通常是按照数据挖掘应用的方式——机器学习主…
-
数据科学极简史(二)
2002 年 4 月,数据科学期刊(Data Science Journal)创刊,旨在发表「科学与技术领域的数据与数据库管理」方面的论文。「此期刊涵盖对于数据系统的描述,及其在互联网上的发布、应用和法律问题。」此期刊由国际科学理事会(International Council for Science )旗下的数据科学技术委员会(Data for Scien…
-
数据科学极简史(一)
数据科学家如何变得性感的故事,大致也就是作为成熟学科的统计学如何与新兴学科计算机科学发生关系的故事。“数据科学”这个术语的出现较晚近,用来指代一个需要解读大量数据的职业。但解读数据这件事的历史很长,它已经被科学家、统计学家、图书馆员、计算机科学家以及其他人士讨论多年。下文的时间线追溯“数据科学”一词的演化,以及它的应用、对它进行定义的尝试和一些相关的术语。 …
-
大嘴巴漫谈数据挖掘:产品运营重精确,产品导入先认知
运营是介于产品开发和营销之间的一种运作状态。一般来说,随着业务的深入发展,以经验型为主粗放式运营必然转向以分析型为主的精细化运营。运营首先要处理好精确和准确的关系:准确是指真实值与测量值之间的误差程度小,精确表示在条件不变的情况下,真实值和测量值之间的误差程度能够反复再现。 运营分析需要保证结果的精确性,也就是常说的“次次如此、回回一样”,可以容忍一定程度上…
-
大数据科学工具包(万余字介绍几百种工具,经典收藏版!)
前言:数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具,秦陇纪全面梳理数据分析师和数据科学家使用的工具包,包括…
-
领英宣布开源数据挖掘软件WhereHows
摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。 在一篇博客中,领…
-
11款开放中文分词引擎大比拼
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。
-
Python文本分析:2016年政府工作报告有哪些高频词?
摘要:上周六,总理在大会堂作政府工作报告,全球媒体瞩目。每年都会有媒体对报告中的高频词汇进行梳理,我们也可以尝试利用Python和分词jieba来自己分析一下。 我们首先来看国内部分媒体的梳理结果。据小编简单了解,已知对工作报告高频词汇进行梳理的媒体包括法制日报和新华网。 国内媒体梳理的高频词 下面是法制日报公布的十大高频词。 高频词 词频 1978年以来政…
-
如何研究学习一个机器学习算法?
摘要:机器学习算法都是一个个复杂的体系,需要通过研究来理解。学习算法的静态描述是一个好的开始,但是这并不足以使我们理解算法的行为,我们需要在动态中来理解算法。 机器学习算法的运行实验,会使你对于不同类型问题得出的实验结论,并对实验结论与算法参数两者的因果关系有一个直观认识。 在这篇文章中,你将会知道怎么研究学习一个机器学习算法。你将会学到5个简单步骤,你可以…
-
数据分析系列篇:Amazon亚马逊数据分析师工作交流
我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指…