数据集
-
车品觉:大数据的价值——找到别人的“集体智慧”
车品觉认为,大数据应该是CEO直接领导的战略级部门,是一把开启新世界大门的钥匙。
-
硅谷王川:深度学习有多深?经历的回放(23)
本文是 硅谷王川:深度学习有多深?发散的大脑(22) 的续篇。
-
最流行的4个机器学习数据集
机器学习算法需要作用于数据,而数据的本质则决定了应用的机器学习算法是否合适,而数据的质量也会决定算法表现的好坏程度。所以会研究数据,会分析数据很重要。
-
机器学习系列(9):从感知器到支持向量机
这一章,我们将介绍一种强大的分类和回归模型,称为支持向量机(support vector machine,SVM)。
-
机器学习系列(8):感知器
这一章,我们将介绍另一种线性模型,称为感知器(perceptron)。
-
数据平台维度模型设计十个技巧
这是一篇讲述维度数据模型设计的文章,偏向于数据平台而非数据分析,请读者根据自己的兴趣爱好阅读。
-
制约人工智能领域的并非算法不够先进,而是缺乏高质量数据集
对于在业务中将机器学习作为核心技术的初创公司来说,能否获得高质量的训练数据极为关键。
-
趣味数据挖掘系列5:听妈妈讲过去的故事,分房与分类
故事中没有月亮、云朵和晚风,却有关于数据挖掘中的分类技术的启示;虽然,现在不再分福利房了,但此故事既回顾历史,也解释了分类技术若干要点,有参考价值。
-
R语言不平衡数据分类指南
在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性。
-
随机之美——机器学习中的随机森林模型
摘要:随机森林和决策树相比,能更好的防止过拟合。虽然每个基分类器很弱,但最后组合的结果通常很强,这也类似于:“三个臭皮匠顶个诸葛亮”的思想。对比发现Random Forest(随机森林)和SVM(支持向量机)名列第一、第二名。 01 树与森林 在构建决策树的时候,可以让树进行完全生长,也可以通过参数控制树的深度或者叶子节点的数量,通常完全生长的树会带来过拟合…
-
检测异常值的参数和非参数方法
摘要:如何利用参数和非参数方法来检测异常值 异常值是指距离其他观测值非常遥远的点,但是我们应该如何度量这个距离的长度呢同时异常值也可以被视为出现概率非常小的观测值,但是这也面临同样的问题——我们要如何度量这个概率的大小呢 有许多用来识别异常值的参数和非参数方法,参数方法需要一些关于变量分布情况的假设条件,而非参数方法并不需要这些假设条件。此外,你还可以利用单…
-
Airbnb支付平台异常检测模型
摘要:对于全球的房主和客人来说,Airbnb非常希望房客都可以通过他们自己熟悉的支付方式、本地币种来支付房费;房主也可以通过喜欢的货币、方便的途径收取房租。为了实现此目的,Airbnb支付团队构建了一个一流的支付平台来保证支付安全和易用性。 Airbnb为全球190个国家提供服务,支持多种货币类型。大部分情况下,支付系统会成功支付,但有时会出现暂歇性故障,比…
-
Airbnb教你使用数据理解用户旅行体验
摘要:Airbnb是如何使用数据理解用户旅行体验的? Airbnb的数据科学家收集数据并使用这些数据来优化产品,通过数据找出问题所在,并且通过数据协助做出业务决策。对于大多数用户,“Airbnb体验”最典型的瞬间就发生在现实世界——当他们根据自己计划去旅行时,当酒店主人跟他们打招呼时,当他们住在酒店时,当他们探索目的地时。这些瞬间决定了Airbnb体验的成败…
-
领英宣布开源数据挖掘软件WhereHows
摘要:领英称即将开源他们内部的应用软件WhereHows,一个企业级的数据挖掘软件。 准确的说,领英称它为“数据发现软件”。从商业角度讲,WhereHows的目标是从分布式的多种元数据中进行挖掘。 据领英发布的资料显示,WhereHows已经挖掘了50,000条数据集,14,000条评论和35,000,000个工作机会,多达15PB的数据。 在一篇博客中,领…
-
数据可视化入门:六种基本图表的特点和适用场合
摘要:”数据可视化”可以帮助用户理解数据,一直是热门方向。 图表是”数据可视化”的常用手段,其中又以基本图表—-柱状图、折线图、饼图等等—-最为常用。 用户非常熟悉这些图表,但如果被问道,它们的特点是什么,最适用怎样的场合(数据集)?恐怕答得上来的人就不多了。 本文是电子书《Data V…