数据集
-
【R】如何确定最适合数据集的机器学习算法
摘要:抽查(Spot checking)机器学习算法是指如何找出最适合于给定数据集的算法模型。本文中我将介绍八个常用于抽查的机器学习算法,文中还包括各个算法的 R 语言代码,你可以将其保存并运用到下一个机器学习项目中。 适用于你的数据集的最佳算法 你无法在建模前就知道哪个算法最适用于你的数据集。你必须通过反复试验的方法来寻找出可以解决你的问题的最佳算法,我称…
-
R语言 vs Python:数据分析哪家强?
摘要:这篇文章旨在更客观地看待这两门语言。我们会平行使用Python和R分析一个数据集,展示两种语言在实现相同结果时需要使用什么样的代码。这让我们了解每种语言的优缺点,而不是猜想。在Dataquest,我们教授两种语言,并认为两者在数据科学工具箱中都占据各自的地位。 我们将会分析一个NBA数据集,包含运动员和他们在2013-2014赛季的表现,可以在这里下载…
-
“魔镜杯”互联网金融数据应用大赛正式开赛(2016年2月25日)
摘要:要问什么行业将是2016年的创新创业风口,互联网金融一定榜上有名。中国有着50%的高储蓄率、140万亿银行存款余额、6亿移动网民,以及持续壮大的中产阶级,共同构成了互联网金融的绝佳土壤。中国16家上市银行的利润,超过其他三千余家上市公司利润之和,也让所有企业看到了金融服务背后的巨大机会。 用互联网、云计算、大数据改造金融,已经成为了多方的战略共识,但机…
-
如何打造高性能大数据分析平台
摘要:本文将从技术无关的角度讨论一些提高性能的方法。下面我们将讨论一些能够应用在大数据分析系统不同阶段的技巧和准则(例如数据提取,数据清洗,处理,存储,以及介绍)。 大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时,如果大数据分析系统无法在第一时间为运营决策提供关键数据,那么这样的大数据分析系统一文不…
-
如何对应用程序的用户数据进行定量分析
摘要:本文讨论一些实用的定量分析技术,帮读者面对移动用户数据“大胆假设,谨慎求证”,达到增加用户数量并获取市场份额的目的。第一篇文章(https://www.afenxi.com/8767.html)介绍了掌握用户数据的基础理念。 数据科学关注查找噪声中隐藏的信号。这一点说起来容易做起来难,但无需依靠众多数据专家即可实现。本文介绍的定量分析技术是非常实用的入…
-
史上最大机器学习数据集,雅虎对外开放了
导读:数据是机器学习研究的命门。访问真正的大规模数据集,是一项传统上由机器学习研究者和大公司的数据科学家所保有的特权,然而大多数学术研究人员缺无法触及。2016年1月14日,雅虎实验室对外发布了发布史上最大机器学习数据集,达 13.5 TB。 数据集主页:http://webscope.sandbox.yahoo.com/catalog.phpdatatyp…
-
SAS中删除数据集的几种方法
SAS中删除数据集的几种方法 proc delete data=work.数据集名称;run;proc datasets lib=worknolist; delete 数据集名称 /memtype=data;quit; proc sql noprint; drop table work.数据集名称;quit; proc iml; call delete(wo…