数据挖掘

  • 大数据科学工具包(万余字介绍几百种工具,经典收藏版!)

    前言:数据科学融合了多门学科并且建立在这些学科的理论和技术之上,包括数学、概率模型、统计学、机器学习、数据仓库、可视化等。在实际应用中,数据科学包括数据的收集、清洗、分析、可视化以及数据应用整个迭代过程,最终帮助组织制定正确的发展决策数据科学的从业者称为数据科学家。数据科学家有其独特的基本思路与常用工具,秦陇纪全面梳理数据分析师和数据科学家使用的工具包,包括…

    2016-03-09
    0
  • 领英宣布开源数据挖掘软件WhereHows

    摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。 在一篇博客中,领…

    2016-03-09
    0
  • 11款开放中文分词引擎大比拼

    在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。

    2016-03-08
    0
  • Python文本分析:2016年政府工作报告有哪些高频词?

    摘要:上周六,总理在大会堂作政府工作报告,全球媒体瞩目。每年都会有媒体对报告中的高频词汇进行梳理,我们也可以尝试利用Python和分词jieba来自己分析一下。 我们首先来看国内部分媒体的梳理结果。据小编简单了解,已知对工作报告高频词汇进行梳理的媒体包括法制日报和新华网。 国内媒体梳理的高频词 下面是法制日报公布的十大高频词。 高频词 词频 1978年以来政…

    2016-03-07
    0
  • 如何研究学习一个机器学习算法?

    摘要:机器学习算法都是一个个复杂的体系,需要通过研究来理解。学习算法的静态描述是一个好的开始,但是这并不足以使我们理解算法的行为,我们需要在动态中来理解算法。 机器学习算法的运行实验,会使你对于不同类型问题得出的实验结论,并对实验结论与算法参数两者的因果关系有一个直观认识。 在这篇文章中,你将会知道怎么研究学习一个机器学习算法。你将会学到5个简单步骤,你可以…

    2016-03-07
    0
  • 数据分析系列篇:Amazon亚马逊数据分析师工作交流

    我对数据挖掘和机器学习是新手,从去年7月份在Amazon才开始接触,而且还是因为工作需要被动接触的,以前都没有接触过,做的是需求预测机器学习相关的。后来,到了淘宝后,自己凭兴趣主动地做了几个月的和用户地址相关数据挖掘上的工作,有一些浅薄的心得。下面这篇文章主要是我做为一个新人仅从事数据方面技术不到10个月的一些心得,也许对你有用,也许很傻,不管怎么样,欢迎指…

    2016-03-05
    0
  • 面试干货!21个必知数据科学面试题和答案part2(12-21)

    摘要:这里是第二部分,就从我给大家准备的“特别提问”开始吧。作者Gregory Piatetsky,KDnuggets. 特别提问:解释什么是过拟合,你如何控制它 这个问题不是20问里面的,但是可能是最关键的一问来帮助你分辨真假数据科学家! 回答者:GregoryPiatetsky 过拟合是指(机器)学习到了因偶然造成并且不能被后续研究复制的的虚假结果。 我…

    2016-03-04
    0
  • 面试干货!21个必知数据科学面试题和答案part1(1-11)

    摘要:KDnuggets编辑给你“20个问题来分辨真假数据科学家”的答案,包括什么是正则化、我们崇拜的数据科学家、模型验证等等。 作者:Gregory Piatetsky, KDnuggets. 最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets的小…

    2016-03-04
    1
  • 如何处理数据中的缺失值

    现实世界中的数据往往非常杂乱,未经处理的原始数据中某些属性数据缺失是经常出现的情况。另外,在做特征工程时经常会有些样本的某些特征无法求出。路漫漫其修远兮,数据还是要继续挖的,本文介绍几种处理数据中缺失值的主要方法。 一、常用方法 1. 删除 最简单的方法是删除,删除属性或者删除样本。如果大部分样本该属性都缺失,这个属性能提供的信息有限,可以选择放弃使用该维属…

    2016-03-03
    0
  • 新浪微博的用户画像是怎样构建的?

    【摘要】用户画像一般是指将用户信息标签化的过程,在分析用户属性这种静态维度时,通过平台自身的合理引导便能获取到精准的用户信息,那么关于”用户兴趣“这种可变动态的属性该怎么去构建用户画像呢这个新浪微博的案例或许能告诉你正确答案 1.概述 从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(…

    2016-03-03
    0
  • 统计学和数据挖掘的异同探讨

    1. 简介 统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。 统计学和数据挖掘研究目标的重迭自然导致了迷惑。…

    2016-03-03
    0
  • 微信红包的随机算法是怎样实现的?

    摘要:最近看了一篇文章,讲微信红包随机算法的。感觉很不错,所以自己实现了下,并进行了简单测试。 算法 算法很简单,不是提前算好,而是抢红包时计算: 红包里的金额怎么算?为什么出现各个红包金额相差很大?答:随机,额度在0.01和剩余平均值*2之间。 实现 实现上述算法的逻辑主要是: LeftMoneyPackage数据结构如下: 测试时初始化相关数据是: 测试…

    2016-03-03
    0
  • 可视化分析的知识产生模型

    日前在2014 VIS会议上,来自德国康斯坦茨大学数据分析和可视化组(Data Analysis and Visualization Group, University of Konstanz)的Sacha等人,提出了一种基于可视化分析的知识产生模型。这个模型保留了过去的挖掘模型,如KDD模型,也从各角度、各层次更加全面地阐述了人类利用计算机的可视化分析系统…

    2016-03-03
    0
  • 【Python】爬虫+K-means聚类分析电影海报主色调

    摘要:每部电影都有自己的海报,即便是在如今这互联网时代,电影海报仍是一个强大的广告形式。每部电影都会根据自身的主题风格设计海报,精致的电影海报可以吸引人们的注意力。那么问题来了,不同风格的电影海报对颜色有什么样的偏好呢? 利用Python爬取海报数据 为了回答这个问题,我们需要分析不同风格电影的海报情况。首先,我们需要构建一个电影海报数据的数据集,因此我利用…

    2016-03-02
    0
  • 以性别预测为例,谈谈数据挖掘中的分类问题

    摘要:互联网的迅猛发展,催生了数据的爆炸式增长。面对海量的数据,如何挖掘数据的价值,成为一个越来越重要的问题。本文首先介绍数据挖掘的基本内容,然后按照数据挖掘基本的处理流程,以性别预测实例来讲解一个具体的数据挖掘任务是如何实现的。 数据挖掘的基本内容 首先,对于数据挖掘的概念,目前比较广泛认可的一种解释如下: Data mining is the use o…

    2016-03-02
    0
关注我们
关注我们
分享本页
返回顶部