文本挖掘
-
R语言中文分词包jiebaR
本文只是抛砖引玉地介绍了jiebaR包的使用方法,详细使用操作,请参考包作者的官方介绍。
-
文本数据的机器学习自动分类方法(下)
随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。
-
大数据建模实操案例分析
在大数据的时代,企业和消费者的接触点变得越来越多,企业要实现它的业务需求,首先要从接触点上采集消费者的数据,然后去进行分析和挖掘,以满足不同业务部门的需求,这个是业务层或者说需求层要解决的一些问题。
-
R语言数据挖掘实战案例:电商评论情感分析
随着网上购物的流行,各大电商竞争激烈,为了提高客户服务质量,除了打价格战外,了解客户的需求点,倾听客户的心声也越来越重要,其中重要的方式 就是对消费者的文本评论进行数据挖掘.今天通过学习《R语言数据挖掘实战》之案例:电商评论与数据分析,从目标到操作内容分享给大家。 本文的结构如下 1.要达到的目标 通过对客户的评论,进行一系列的方法进行分析,得出客户对于某个…
-
基于统计学模型的无指导中文文本分析
摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。 邓柯:今天下午非常荣幸参加这样的活动,也非常感谢活动的主办方,清华大学数据科学研究院的邀请。今天给大家分享一个我们最近做的工作。 刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士。北大毕业之后到哈佛大学统计系,做了几年博士后,做了一些研究…
-
干货收藏:一份Python学习资源大全
摘要:Awesome Python ,这又是一个 Awesome XXX 系列的资源整理,由 vinta 发起和维护。内容包括:Web框架、网络爬虫、网络内容提取、模板引擎、数据库、数据可视化、图片处理、文本处理、自然语言处理、机器学习、日志、代码分析等。 代码下载地址:https://github.com/vinta/awesome-python 受 aw…
-
11款开放中文分词引擎大比拼
在逐渐步入DT(Data Technology)时代的今天,自然语义分析技术越发不可或缺。对于我们每天打交道的中文来说,并没有类似英文空格的边界标志。而理解句子所包含的词语,则是理解汉语语句的第一步。汉语自动分词的任务,通俗地说,就是要由机器在文本中的词与词之间自动加上空格。
-
本·拉登的书架:Python文本分析拉登最常念叨什么?
摘要:2015年,美国官方解密了一系列有关本·拉登的文件,其中最引人瞩目的,是美国国家情报总监办公室(The Office of the Director of National Intelligence)在其官网上列出的“本·拉登的书架”。 曝光的这份阅读清单涉及书籍和其他材料400余种。其中包含了已解密的书信等文档103份、公开发表的美国政府文件75份、…
-
R语言中的情感分析与机器学习
利用机器学习可以很方便的做情感分析。本篇文章将介绍在R语言中如何利用机器学习方法来做情感分析。在R语言中,由Timothy P.Jurka开发的情感分析以及更一般的文本挖掘包已经得到了很好的发展。你可以查看下sentiment包以及梦幻般的RTextTools包。实际上,Timothy还写了一个针对低内存下多元Logistic回归(也称最大熵)的R包maxt…
-
用机器学习的方法鉴别红楼梦作者
在学界一般认为,《红楼梦》后 40 回并非曹雪芹所著。本文尝试应用机器学习的方法来分析原著文本中作者的用词习惯,从技术角度去说明《红楼梦》前 80 回和后 40 回的写作风格差别,继而可以确认后 40 回非原作者所写。 项目存放在reality-of-Dream-of-Red-Mansions。 主要原理 每个作者写作都有自己的用词习惯和风格,即使是故意模仿…
-
2016年文本、语义、社交分析十大趋势
大数据时代,文本、语义和社交分析就像企业的“天眼”,可以聆听到来自用户、患者和市场的声音。目前文本、语义和社交分析技术已经包括金融、医疗、传媒、电商在内的在多个行业得到广泛应用,企业从海量的互联网和企业内部数据,包括文本、视频等结构化和非结构化数据中提取那些能提高决策质量的有用信息和情报。 但是,文本、语义和社交分析技术依然处于成长期,在一些领域,例如数据分…
-
用文本挖掘和机器学习洞悉数据
文本挖掘是对包含于自然语言文本中数据的分析。它可以帮组一个组织从基于文本的内容中获得潜在的有价值的业务洞察力,比如Word文档,邮件和社交媒体流中发布的帖子,如Facebook,Twitter,和LinkedIn。对于机器学习技术中信息检索和自然语言处理的应用而言,文本挖掘已经成为一个重要的研究领域。在某种意义上,它被定义为在无处不在的文本中发现知识的方式,…
-
用文本挖掘技术分析电商非结构化的评论数据
电商平台中有海量的非结构化文本数据,如商品描述、用户评论、用户搜索词、用户咨询等。这些文本数据不仅反映了产品特性,也蕴含了用户的需求以及使用反馈。通过深度挖掘,可以精细化定位产品与服务的不足。下面描述了电商平台下机器学习在文本挖掘的应用例子。 1、用户评论分类 场景 用户评论能反映出用户对商品、服务的关注点和不满意点。评论从情感分析上可以分为正面与负面。细粒…
-
通过数据挖掘手段分析网民的评价内容?
作者:学飞 从坠落开始 本篇综述主要参考了Liu Bing的《Sentiment analysis and opinion mining》,增加了一些自己的观点。 Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies…