数据挖掘
-
基于统计学模型的无指导中文文本分析
摘要:以下为清华大学统计学研究中心邓柯分享的主题为“基于统计学模型的无指导中文文本分析”的演讲。 邓柯:今天下午非常荣幸参加这样的活动,也非常感谢活动的主办方,清华大学数据科学研究院的邀请。今天给大家分享一个我们最近做的工作。 刚才主持人介绍了我的教育背景。我本科和博士都是在北大念的,拿的统计学博士。北大毕业之后到哈佛大学统计系,做了几年博士后,做了一些研究…
-
知道这20个正则表达式,能让你少写1,000行代码
正则表达式,一个十分古老而又强大的文本处理工具,仅仅用一段非常简短的表达式语句,便能够快速实现一个非常复杂的业务逻辑。熟练地掌握正则表达式的话,能够使你的开发效率得到极大的提升。 正则表达式经常被用于字段或任意字符串的校验,如下面这段校验基本日期格式的JavaScript代码: 下面是技匠整理的,在前端开发中经常使用到的20个正则表达式。 1 . 校验密码强…
-
Python爬虫进行Web数据挖掘总结和分析
利用Python爬虫进行Web数据挖掘已经越来越普遍,网上的各种Python爬虫资料教程比较多,但是很少有人对Web数据挖掘进行系统地总结和分析。
-
机器学习揭秘47万微信群背后的数字以及9大规律
摘要:微信群已经进入到我们的日常生活中,成为社交关系的主要纽带。但微信群有自己的规律,长期群能存活很长的时间,临时群则转瞬即逝。来自清华大学、康奈尔大学、腾讯公司和香港科技大学的研究人员采用了机器学习算法分析了47万+的微信群、2亿+微信用户、6亿+的好友关系和200万+邀请记录,揭秘微信群背后的数字以及 9 大规律。 The Lifecycle and C…
-
矩阵分解在推荐系统中的应用:NMF和经典SVD实战
摘要:本文以NMF和经典SVD为例,讲一讲矩阵分解在推荐系统中的应用。 数据 itemuser Ben Tom John Fred item 1 5 5 0 5 item 2 5 0 3 4 item 3 3 4 0 3 item 4 0 0 5 3 item 5 5 4 4 5 item 6 5 4 5 5 useritem item 1 item 2 i…
-
地理数据可视化的3大疑问:Simple,Not Easy!
Simple,Not Easy 笔者产生了第几个疑问: 用户自有数据的管理是不是足够了 如何保障这些平台提供的地理大数据的准确性 地理可视化是本还是末 如果要给2015年的地理信息行业打一个标签,地理大数据一定是其中之一。在信息技术飞速发展的今天,“大数据”作为一种潮流铺天盖地的席卷了各行各业,从央视的春运迁徙图到旅游热点预测,从大数据工程师奇货可居到马云布…
-
K-Means聚类算法的原理及实现
K-Means是聚类算法中的一种,其中K表示类别数,Means表示均值。顾名思义K-Means是一种通过均值对数据点进行聚类的算法。K-Means算法通过预先设定的K值及每个类别的初始质心对相似的数据点进行划分。并通过划分后的均值迭代优化获得最优的聚类结果。 K值及初始质心 K值是聚类结果中类别的数量。简单的说就是我们希望将数据划分的类别数。K值决定了初始质…
-
【世界读书日】数据狂人必备的10本全球畅销书
对于一位数据科学的狂热粉丝而言,可供选择阅读的书籍内容很多,包括大数据、机器学习、数据科学以及数据挖掘等等。除了这些技术范围内的书籍之外,也有很多工具类和语言类的书籍,比如Hadoop、Spark、Python和R语言等。关于数据的书籍和专题时常更新,所以只有你掌握了最新的信息才可以让你掌握这个领域内最先进的技术和技能。幸运的是(或者也可以称之为不幸)关于数…
-
个性化推荐应用很low?绝对是知识精英赤果果的偏见!
去年以来,参加了不少会议,会议上不少专家忧心忡忡地批判以今日头条为代表的个性化推荐引擎,其理由无非是造成知识窄化、低俗化和不精准等陈词滥调,现在还只能说出这些理由只能说明他们根本不了解个性化推荐。 知识窄化是知识精英的误判 所谓知识窄化,是指人们的知识在某一方面或某一方向高度集中,导致知识,越来越收缩。知识窄化并不是一个新名词,曾记得当微博兴起时,不少专家就…
-
通过抓取婚恋网用户数据来生成自己的择偶观
摘要:本文教你使用python抓取婚恋网用户数据并用决策树生成自己择偶观 最近在看《机器学习实战》的时候萌生了一个想法,自己去网上爬一些数据按照书上的方法处理一下,不仅可以加深自己对书本的理解,顺便还可以在github拉拉人气。刚好在看决策树这一章,书里面的理论和例子让我觉得这个理论和选择对象简直不能再贴切,看完长相看学历,看完学历看收入。如果可以从婚恋网站…
-
一线专家谈谈:数据挖掘在实际领域中的那些事儿
大家好,我是明略数据的佘伟。今天非常荣幸能给大家分享明略数据在大数据挖掘方面做的一些事情。 企业中的数据挖掘我们先来看看在企业中数据挖掘都是怎么做的,以及有着哪些问题。 图中的左边是SPSS在1999年提出的《跨行业数据挖掘标准流程》,在图中定义了数据挖掘的6个步骤。虽然这个图已经提出有10几年了,但是在大数据环境下,这个流程依然适用。 1.理解商业问题。这…
-
基于树的建模-完整教程(R & Python)
简介 基于树的学习算法被认为是最好的方法之一,主要用于监测学习方法。基于树的方法支持具有高精度、高稳定性和易用性解释的预测模型。不同于线性模型,它们映射非线性关系相当不错。他们善于解决手头的任何问题(分类或回归)。 决策树方法,随机森林,梯度增加被广泛用于各种数据科学问题。因此,对于每一个分析师(新鲜),重要的是要学习这些算法和用于建模。 决策树、随机森林、…
-
阿里云数据库产品总监何云飞:从大数据到云计算,DT时代的数据容器是怎样的?
摘要:在DT(DataTechnology)时代,挖掘海量数据的价值,让数据成为新的经济增长引擎,往往离不开云的支持。来看看阿里云是怎么处理的吧!本文整理自3月27日极客邦科技「技术社群大会」上何云飞先生的演讲。 人类正从IT时代走向DT时代,从五年前开始,我们在云计算上面押了很多宝,才诞生了互联网金融,如果没有数据支持,互联网金融是不可想象的。」 ——马云…
-
产品策略研究期的数据分析与挖掘
摘要:《大嘴巴漫谈数据挖掘》系统而全面地描述了数据挖掘的基本概念、常用算法等。《大嘴巴漫谈数据挖掘(第2季产品篇)》是《大嘴巴漫谈数据挖掘》的姊妹篇,在前作的基础上,它以产品为核心,按照产品发展的过程,依次详细分析产品策略研究期、产品概念评估期、产品研发期、产品测试期、产品导入期、产品发展期、产品成熟期、产品衰退期这8个产品发展的必经阶段所必须做的数据挖掘工…
-
关联分析在游戏行业中应用案例
背景:研究用户的历史付费行为,对付费用户购买的道具进行研究,发现道具之间的关联性,方便运营根据道具的关联性进行活动推广。 数据源:2016年3月28日——2016年4月4日一个自然周的付费数据。 数据字段:付费次数、付费人数、付费金额及占比、道具名称。 研究对象:2016年3月28日——2016年4月4日一个自然周的付费用户群。 一、数据探索 (1)购买次数…