数据分析
-
用Spark机器学习数据流水线进行广告检测
在这篇文章中,我们Spark的其它机器学习API,名为Spark ML,如果要用数据流水线来开发大数据应用程序的话,这个是推荐的解决方案。
-
数据挖掘入门指南!!!
入门数据挖掘,必须理论结合实践。本文梳理了数据挖掘知识体系,帮助大家了解和提升在实际场景中的数据分析、特征工程、建模调参和模型融合等技能。
-
我是数据分析师(二):假老公又提数据分析要多表关联—为了爱情,我忍了
文|数加大数据团队 自从上次给老公写了个《我是数据分析师(一):假老公提Excel数据自动更新的需求》教程,他就哼哧哼哧的去做了,就在上周他又提了个新的问题:“我还有一张用户信息,需要跟之前那张销售订单表关联,看看购买的用户的地域来源及年龄情况,要怎么搞?” 于是,就在各位童鞋还沉浸在三八妇女节的欢…
-
从底层到应用,那些数据人的必备技能
根据数据应用的不同阶段,我将从数据底层到最后应用,来谈谈那些数据人的必备技能。
-
机器学习的本质就是数理统计?
这个答案看起来似乎无懈可击,但其实机器学习和数理统计之间的关系远没有这么简单。
-
机器学习模型训练全流程
发现一个很有趣的开源项目,作者用手绘图的方式讲解了机器学习模型构建的全流程,逻辑清晰、生动形象。
-
3000字!5大SQL数据清洗方法!
公司的业务数据一般存储在数据仓库里面,数据量很大,主要用的是HiveSQL和MySql做处理。 基于此,写了一个常用数据清洗的SQL对比版,脚本很简单,重点是这些清洗场景和逻辑,大纲如图: 1、…
-
数据达人养成记
文 | 谢佳标 近年来,身边越来越多朋友跟我请教,如何快速成长为数据分析人员。其实学习没有捷径,如何合格的数据分析人员,让我们先看摘自《数据科学实战》一书中的关于数据科学技能与自我认知的主要元素: 可见要想成为合格的数据分析师,我们需要具备一定的数学、统计学、计算机能力,还需要具备以下的数据处理、建…
-
复杂网络分析之数据准备篇
作者:邓旭东HIT 关系图之原始数据 我给大家编了下面两组原始数据,试图画出abcd四元素之间的关系 nodes_data = [‘a’, ‘b’, ‘c’, ‘d’] raw_data = [‘acW’, ‘aca’, ‘caE’, ‘ec’, ‘cd’, ‘dc’] 我们做关系网络前的最初始数据…
-
DataCanvas发布:2021 AutoML 自动机器学习白皮书
九章云极DataCanvas联合全球知名的研究机构IDC中国重磅发布《引入AutoML,破局企业智能白皮书》,探讨AutoML创新应用的新未来。
-
零售行业数据分析应用模型
1、门店管理应用 应用模板包括:店长维度-门店评分;总部运营维度-门店分析;门店销售日报;商品搜索引擎 本模型主要是在门店角度对零售公司经营进行分析,其中店长维度和总部运营维度是从两个不同的视角对门店进行分析。店长是单个店铺的情况,以及本店铺在整体中的排名。而总部运营则是整体的视角,看所有的店铺。 …
-
SQL面试通关秘籍:面试知识点+技巧分享!
在这篇文章中,我将介绍 SQL 面试问题中常见的模式,并提供一些在 SQL 查询中巧妙处理它们的技巧。
-
如何确定你的用研样本量和数据
本文作者将推荐一个公式来确定用户研究中的定性样本量,且探讨如何收集和分析数据,以实现“数据饱和”,最终将提供一个侧重本文观点的案例研究。
-
数据分析之业务知识入门
这次是主要偏向业务分析框架,让大家能够明白,数据分…
-
如何选择正确的数据指标?
提到新增用户、用户活跃度、停留时长、常用功能或者各渠道转化率等等,都是很重要的用户行为数据,这些数据告诉我们,用户是谁?从哪里来?在网站/App 干了什么?这些数据,应该成为数据分析的基础数据,我们可以基于这些行为数据去做更深度的分析。因为它们只能告诉你网站的大概情况,但是通常不太能很好地指导你工作。