2015年阿里巴巴数据分析师笔试试题

tese-ali

一、问答题

1、你理解中的分析师是什么样的?你觉得自己目前应聘分析师职位的优势是什么?并说明理由。

2、淘宝和天猫上每天都有大量的用户在线上购买,作为分析师可以从哪些角度对用户进行分析,同时说明清楚选取这个角度做分析的目的。

3、某银行信用卡模型建设过程中,申请评分卡模型训练过程出现过拟合的现象,请阐述一下什么是过拟合现象?如何解决过拟合现象?

4、影响网店销售额的因素有很多,请列举出3个以上的影响最终店铺销售额的因素,同时针对销售额下降的情况结合列出的因素给出建议的活动策划方案?详细讲出各因素是如何影响销售额?

5、特斯拉公司在最新版的纯电动车的研究中有这样一组数据,针对不对的车速,测试其电力消耗情况如下,车速(km/h)分别为33、45、40、55、30、21、60、17、50、52的情况下,相对应每小时的电力(度)消耗为28、32、30、36、27、23、37、15、33、35,就以上数据计算车速与电力消耗之间的皮尔逊相关系数并解释其含义,给出计算过程?

6、查询成交表a中的城市city的成交金额大于0的购买人数(buyer_id)和成交金额(amt)
city buyer_id order_id amt
a 1 1 100
a 1 2 100
b 2 3 100
b 3 4 20
c 4 5 0

二、选择题

1、11,27,66,146,()。括号中的数字是()
a.291
b.227
c.186
d.306

2、一组数据,均值>中位数>众数,问这组数据
a.左偏
b.右偏
c.钟型
d.对称

3、下列中不属于非参数检验的有:
a.中位数检验
b.T检验
c.Kruskal-Wallis检验
d.Mann-Whitney U 检验

3、取出两组在天猫上购物的样本人群,检验他们的平均消费水平是不是一致,用以下哪一种检验方法:
a.单样本T检验
b.多样本T检验
c.F检验
d.单位根检验

4、以下场景中,对应使用的挖掘算法不合适的是
a.用关联规则算法分析出购买了啤酒的买家,是否适合推荐花生
b.根据用户最近一年的交易日志数据,用K-means算法聚类出不同的用户群体
c.根据用户最近几年的消费者来电量,用主成分分析法拟合出用户未来一个月可能的来电量
d.根据用户最近购买的商品信息,用决策树算法识别出用户是否在一线城市

5、以下哪个不属于随机现象?
a.检查淘宝网上的一件商品,是正品还是非正品
b.抛硬币落地时,朝向是正面还是反面
c.淘宝消费者拨打热线的月来电量
d.一盒子中随机搅拌后的3个白球,任取1个是白球

6、以下关于数据挖掘说法是正确的.
a.数据挖掘是万能的
b.如果你建立了一个database,那就意味着你已经有足够的数据可以做数据挖掘了
c.数据挖掘=数据+算法,数据挖掘人员大部分的时间用来处理复杂的挖掘算法
d.ABC均错误

7、以下对k-means聚类算法解释正确的是
a.能自动识别类的个数,随即挑选初始点为中心点计算
b.能自动识别类的个数,不是随即挑选初始点为中心点计算
c.不能自动识别类的个数,随即挑选初始点为中心点计算
d.不能自动识别类的个数,不是随即挑选初始点为中心点计算

8、在R中定义函数exec_str <- function(str) {eval(parse(text=str))},并执行exec_str(“3^4”),得到的结果是
a.3^4
b.1
c.-1
d.81

9、下列哪个是提取数字和小写字母的正则表达
a.[da+z]-‘
b.[da-z]+’
c.[da-z]-‘
d.[da+z]+’

10、现在有M个桶,每桶都有N个乒乓球,乒乓球的颜色有K种,并且假设第i个桶第j种颜色的球个数为Cij,比例为Rij=Cij/N,现在要评估哪个桶的乒乓球颜色纯度最高,下列哪种算法和描述是合理的?
a.∑(N/K-Cij)(N/K-Cij)越小越纯
b.-∑Cij*LOG(Rij)越小越纯
c.∑(1-Rij*Rij)越小越纯
d.∑(1-Rij)*(1-Rij)越小越纯
e.∑(1-Rij)^2 越小越纯
f.-∑Rij*LOG(Rij)越小越纯

11、对于数据分析中采集到的原始数据,可能存在的数据本身的问题有:
a.脏数据
b.重复
c.格式错乱
d.缺失值
e.数据量过多
f.异常值

三、多选题

1、某二线城市春节期间5%的司机会被查出酒驾,今年春节某天随机抽查了50个司机,请问如下说法正确的是()
a.50个司机的抽查是二项分布
b.50个司机的抽查是泊松分布
c.50个司机的抽查是指数分布
d.抽查司机中有2个是酒驾的概率是0.261
e.抽查司机中没有酒驾的概率是0.014
f.抽查司机中3个及以上的酒驾的概率是0.780

2、下列哪些指标能够判定数据的波动
a.均值
b.标准差
c.变异系数
d.相关系数
e.峰值
f.偏度

3、excel工作簿a中有两列id、age,工作簿b中有一列id,需要找到工作薄b中id对应的age,可用的函数包括
a.index+match
b.vlookup
c.hlookup
d.find
e.if
f.like

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流,内容版权归原作者所有,如涉作品、版权和其他问题请给「我们」留言处理。

(0)
张乐的头像张乐编辑
上一篇 2015-11-01 13:47
下一篇 2015-11-01 15:06

相关文章

  • 阿里涂子沛:一切皆因数据

    涂子沛:很高兴今天能和大家分享,来到这里看到这么多同学感到很温暖,同学的眼神完全不一样的,我进来就能识别这种眼神。这让我想起十五年前,和大家一样在周末去参加培训。但有点区别,你们参加的是商业培训,我参加的是在职公共管理培训,因为当时我是一名政府官员。现在我还记得国家招收第一届公共管理硕士,手拿招生通告逐条对比报考条件我都符合,非常激动。 今天回头看,我想说是…

    2016-01-01
    0
  • 数据分析师经常遇到的13个问题

    1、最早的数据分析可能就报表 目前很多数据分析后的结果,展示的形式很多,有各种图形以及报表,最早的应该是简单的几条数据,然后搞个web页面,展示一下数据。早期可能数据量也不大,随便搞个数据库,然后SQL搞一下,数据报表就出来了。但是数据量大起来怎么分析呢?数据分析完了怎么做传输呢?这么大的数据量怎么做到实时呢?分析的结果数据如果不是很大还行,如果分析的结果数…

    2016-04-01
    0
  • 2016年最新数据科学报告:数据科学家依然供不应求

    前言 我们的《2016数据科学家报告》是去年的努力的后续行动。我们的目的是调查有着多年经验和专业领域的专业数据科学家,从而了解他们的职业,以及他们每天的日常工作是怎样的。 我们的发现非常有趣。对创业公司而言,数据科学家把多数时间花在做他们不喜欢做的事。然而,他们中的绝大多数仍然热爱他们的工作。我们重点关注数据科学家认为机器学习在特殊领域和整个行业中有何等的重…

    2016-04-13
    0
  • 对话《人类简史》作者赫拉利:数据崇拜将无边无际?

    4月23日,世界读书日,涂子沛应邀出席中信出版集团在北京举办的“你,定义未来”大型读书会,与《人类简史》作者尤瓦尔赫拉利进行了一场关于数据崇拜与智能之心的对话。以下是演讲全文: 大家好,今天想跟大家谈的话题是“数据是土壤”。很多人说,数据是黄金,数据是石油,我告诉你们,不是黄金,不是石油,而是土壤!大数据的出现,标志着我们在迈向一个智能社会。 崇拜源于自身局…

    2016-05-01
    0
  • 清华教授邓志东谈人工智能:BAT还算不上伟大公司

    摘要:清华大学教授邓志东最近明显“忙了起来”。他向新浪科技展示了最近的时间表:第二天有一场报告,报告结束后赶飞机去芜湖,周末深夜再回北京…… “人工智能终于到了风口”,一见面,邓志东就这样说。 从1992年来到清华开始博士后研究,再到2016年春天,邓志东见证了人工智能基础研究从高峰到低谷再到复兴的全过程。作为国内很早一批开始研究深度神经网络的学者,他在人工…

    2016-04-12
    0
关注我们
关注我们
分享本页
返回顶部