数据挖掘

  • 数据科学极简史(一)

    数据科学家如何变得性感的故事,大致也就是作为成熟学科的统计学如何与新兴学科计算机科学发生关系的故事。“数据科学”这个术语的出现较晚近,用来指代一个需要解读大量数据的职业。但解读数据这件事的历史很长,它已经被科学家、统计学家、图书馆员、计算机科学家以及其他人士讨论多年。下文的时间线追溯“数据科学”一词…

    2016-03-10
    0
  • 大嘴巴漫谈数据挖掘:产品运营重精确,产品导入先认知

    运营是介于产品开发和营销之间的一种运作状态。一般来说,随着业务的深入发展,以经验型为主粗放式运营必然转向以分析型为主的精细化运营。运营首先要处理好精确和准确的关系:准确是指真实值与测量值之间的误差程度小,精确表示在条件不变的情况下,真实值和测量值之间的误差程度能够反复再现。 运营分析需要保证结果的精…

    2016-03-10
    0
  • 大数据科学工具包(万余字介绍几百种工具,经典收藏版!)

    前言:数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用…

    2016-03-09
    0
  • 领英宣布开源数据挖掘软件WhereHows

    摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,00…

    2016-03-09
    0
  • 11款开放中文分词引擎大比拼

    在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。

    2016-03-08
    0
  • Python文本分析:2016年政府工作报告有哪些高频词?

    摘要:上周六,总理在大会堂作政府工作报告,全球媒体瞩目。每年都会有媒体对报告中的高频词汇进行梳理,我们也可以尝试利用Python和分词jieba来自己分析一下。 我们首先来看国内部分媒体的梳理结果。据小编简单了解,已知对工作报告高频词汇进行梳理的媒体包括法制日报和新华网。 国内媒体梳理的高频词 下面…

    2016-03-07
    0
  • 如何研究学习一个机器学习算法?

    摘要:机器学习算法都是一个个复杂的体系,需要通过研究来理解。学习算法的静态描述是一个好的开始,但是这并不足以使我们理解算法的行为,我们需要在动态中来理解算法。 机器学习算法的运行实验,会使你对于不同类型问题得出的实验结论,并对实验结论与算法参数两者的因果关系有一个直观认识。 在这篇文章中,你将会知道…

    2016-03-07
    0
  • 数据分析系列篇:Amazon亚马逊数据分析师工作交流

    我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到1…

    2016-03-05
    0
  • 面试干货!21个必知数据科学面试题和答案part2(12-21)

    摘要:这里是第二部分,就从我给大家准备的“特别提问”开始吧。作者Gregory Piatetsky,KDnuggets. 特别提问:解释什么是过拟合,你如何控制它 这个问题不是20问里面的,但是可能是最关键的一问来帮助你分辨真假数据科学家! 回答者:GregoryPiatetsky 过拟合是指(机器…

    2016-03-04
    0
  • 面试干货!21个必知数据科学面试题和答案part1(1-11)

    摘要:KDnuggets编辑给你“20个问题来分辨真假数据科学家”的答案,包括什么是正则化、我们崇拜的数据科学家、模型验证等等。 作者:Gregory Piatetsky, KDnuggets. 最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首…

    2016-03-04
    1
  • 如何处理数据中的缺失值

    现实世界中的数据往往非常杂乱,未经处理的原始数据中某些属性数据缺失是经常出现的情况。另外,在做特征工程时经常会有些样本的某些特征无法求出。路漫漫其修远兮,数据还是要继续挖的,本文介绍几种处理数据中缺失值的主要方法。 一、常用方法 1. 删除 最简单的方法是删除,删除属性或者删除样本。如果大部分样本该…

    2016-03-03
    0
  • 新浪微博的用户画像是怎样构建的?

    【摘要】用户画像一般是指将用户信息标签化的过程,在分析用户属性这种静态维度时,通过平台自身的合理引导便能获取到精准的用户信息,那么关于”用户兴趣“这种可变动态的属性该怎么去构建用户画像呢这个新浪微博的案例或许能告诉你正确答案 1.概述 从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度…

    2016-03-03
    0
  • 统计学和数据挖掘的异同探讨

    1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的…

    2016-03-03
    0
  • 微信红包的随机算法是怎样实现的?

    摘要:最近看了一篇文章,讲微信红包随机算法的。感觉很不错,所以自己实现了下,并进行了简单测试。 算法 算法很简单,不是提前算好,而是抢红包时计算: 红包里的金额怎么算?为什么出现各个红包金额相差很大?答:随机,额度在0.01和剩余平均值*2之间。 实现 实现上述算法的逻辑主要是: LeftMoney…

    2016-03-03
    0
  • 可视化分析的知识产生模型

    日前在2014 VIS会议上,来自德国康斯坦茨大学数据分析和可视化组(Data Analysis and Visualization Group, University of Konstanz)的Sacha等人,提出了一种基于可视化分析的知识产生模型。这个模型保留了过去的挖掘模型,如KDD模型,也从…

    2016-03-03
    0
发表文章
意见反馈
意见反馈
分享本页
返回顶部