文本分析

  • 基于Spark的文本情感分析

    本文描述了基于 Spark 如何构建一个文本情感分析系统

    2016-06-10
    0
  • 从非结构化数据中发现价值

    许多企业仍然被淹没在巨大的数据量以及文本数据源快速增长的洪流当中

    2016-05-28
    0
  • 用“一袋子词”进行情感分析

    很久以来,主流 NLP (Natural Language Processing)就在这样的一袋子词里面做文章,有时候也确实做出了蛮漂亮的文章,都是用的基于统计的机器学习。什么是“一袋子词”呢?

    2016-05-24
    0
  • 大数据为你预测2016美国大选

    近年来,社交媒体逐渐成为民众在大选时发表观点和对候选人意见的渠道。推特,为一个公共和广泛使用的渠道,提供了一个衡量和预测竞选动态的平台。现在,“超级星期二”已经过去,让我们来分析一下党内初选的情况。

  • 博客推荐系统第二部分: 基于内容相似性的推荐

    在第一篇文章我们介绍了推荐系统的优点,大致可以把推荐系统分为两种类型:基于内容的推荐系统和协同过滤推荐系统。

    2016-05-14
    0
  • Python对爬取的文本进行情感分析

    这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果。

    2016-05-05
    0
  • R语言数据挖掘实战案例:电商评论情感分析

    随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个…

    2016-04-27
    0
  • 基于统计学模型的无指导中文文本分析

    摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。 邓柯:今天下午非常荣幸参加这样的活动,也非常感谢活动的主办方,清华大学数据科学研究院的邀请。今天给大家分享一个我们最近做的工作。 刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士。北大毕业之后到哈佛大学统计系,做了几年博士后,做了一些研究…

    2016-04-26
    0
  • 一线专家谈谈:数据挖掘在实际领域中的那些事儿

    大家好,我是明略数据的佘伟。今天非常荣幸能给大家分享明略数据在大数据挖掘方面做的一些事情。 企业中的数据挖掘我们先来看看在企业中数据挖掘都是怎么做的,以及有着哪些问题。 图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这…

    2016-04-21
    0
  • 华为首席科学家李航博士:我是怎么样理解机器学习的?

    摘要:算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不 小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得 没有个八年十年的刻苦钻研是不可能的事情。 其实整个人工智能范畴…

    2016-04-11
    0
  • 社交媒体语义情感分析:希拉里所面对的性别歧视

    摘要:作为女性总统候选人,希拉里被支持者视作政坛女强人,然而在社交媒体上,频现针对希拉里性别的语言攻击。本期大数据与社会为您译制了华盛顿邮报对于该现象的语义情感分析。 图片及原文来自华盛顿邮报 随着民主党总统初选,希拉里 克林顿和伯尼桑德斯之间的支持率越来越接近, 一些评论家认为,克林顿的竞选遭到性别歧视抨击的炮轰 — — 特别是来自桑德斯的支持者。 但基于…

    2016-03-19
    0
  • 数据分析师解读十年19万字的政府工作报告

    摘要:正值两会期间,每年人大会议上的总理政府工作报告都是大家关心的重点。然而每年的报告都长达近两万字,十年累计起来共有快二十万字,那么如何快速地从中抓住重点和方向呢?今天大数据文摘的小伙伴们就和大家一起大开脑洞,看一看从数据角度怎么来解读政府工作报告的亮点与趋势。 本文扒取了2007-2016近十年的总理政府工作报告进行词频分析,先统计出每个词语出现的频率,…

    2016-03-15
    0
  • 11款开放中文分词引擎大比拼

    在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。

    2016-03-08
    0
  • Python文本分析:2016年政府工作报告有哪些高频词?

    摘要:上周六,总理在大会堂作政府工作报告,全球媒体瞩目。每年都会有媒体对报告中的高频词汇进行梳理,我们也可以尝试利用Python和分词jieba来自己分析一下。 我们首先来看国内部分媒体的梳理结果。据小编简单了解,已知对工作报告高频词汇进行梳理的媒体包括法制日报和新华网。 国内媒体梳理的高频词 下面是法制日报公布的十大高频词。 高频词 词频 1978年以来政…

    2016-03-07
    0
  • 本·拉登的书架:Python文本分析拉登最常念叨什么?

    摘要:2015年,美国官方解密了一系列有关本·拉登的文件,其中最引人瞩目的,是美国国家情报总监办公室(The Office of the Director of National Intelligence)在其官网上列出的“本·拉登的书架”。 曝光的这份阅读清单涉及书籍和其他材料400余种。其中包含了已解密的书信等文档103份、公开发表的美国政府文件75份、…

    2016-02-21
    0
关注我们
关注我们
分享本页
返回顶部