2015年阿里巴巴数据分析师笔试试题

一、问答题

1、你理解中的分析师是什么样的？你觉得自己目前应聘分析师职位的优势是什么？并说明理由。

2、淘宝和天猫上每天都有大量的用户在线上购买，作为分析师可以从哪些角度对用户进行分析，同时说明清楚选取这个角度做分析的目的。

3、某银行信用卡模型建设过程中，申请评分卡模型训练过程出现过拟合的现象，请阐述一下什么是过拟合现象？如何解决过拟合现象？

4、影响网店销售额的因素有很多，请列举出3个以上的影响最终店铺销售额的因素，同时针对销售额下降的情况结合列出的因素给出建议的活动策划方案？详细讲出各因素是如何影响销售额？

5、特斯拉公司在最新版的纯电动车的研究中有这样一组数据，针对不对的车速，测试其电力消耗情况如下，车速（km/h）分别为33、45、40、55、30、21、60、17、50、52的情况下，相对应每小时的电力（度）消耗为28、32、30、36、27、23、37、15、33、35，就以上数据计算车速与电力消耗之间的皮尔逊相关系数并解释其含义，给出计算过程？

6、查询成交表ａ中的城市city的成交金额大于0的购买人数（buyer_id)和成交金额(amt)
city buyer_id order_id amt
a 1 1 100
a 1 2 100
b 2 3 100
b 3 4 20
c 4 5 0

二、选择题

1、11,27,66,146，（）。括号中的数字是（）
a.291
b.227
c.186
d.306

2、一组数据，均值>中位数>众数，问这组数据
a.左偏
b.右偏
c.钟型
d.对称

3、下列中不属于非参数检验的有：
a.中位数检验
b.T检验
c.Kruskal-Wallis检验
d.Mann-Whitney U 检验

3、取出两组在天猫上购物的样本人群，检验他们的平均消费水平是不是一致，用以下哪一种检验方法：
a.单样本T检验
b.多样本T检验
c.F检验
d.单位根检验

4、以下场景中，对应使用的挖掘算法不合适的是
a.用关联规则算法分析出购买了啤酒的买家，是否适合推荐花生
b.根据用户最近一年的交易日志数据，用K-means算法聚类出不同的用户群体
c.根据用户最近几年的消费者来电量，用主成分分析法拟合出用户未来一个月可能的来电量
d.根据用户最近购买的商品信息，用决策树算法识别出用户是否在一线城市

5、以下哪个不属于随机现象？
a.检查淘宝网上的一件商品，是正品还是非正品
b.抛硬币落地时，朝向是正面还是反面
c.淘宝消费者拨打热线的月来电量
d.一盒子中随机搅拌后的3个白球，任取1个是白球

6、以下关于数据挖掘说法是正确的.
a.数据挖掘是万能的
b.如果你建立了一个database，那就意味着你已经有足够的数据可以做数据挖掘了
c.数据挖掘=数据+算法，数据挖掘人员大部分的时间用来处理复杂的挖掘算法
d.ABC均错误

7、以下对k-means聚类算法解释正确的是
a.能自动识别类的个数，随即挑选初始点为中心点计算
b.能自动识别类的个数，不是随即挑选初始点为中心点计算
c.不能自动识别类的个数，随即挑选初始点为中心点计算
d.不能自动识别类的个数，不是随即挑选初始点为中心点计算

8、在R中定义函数exec_str <- function(str) {eval(parse(text=str))},并执行exec_str(“3^4”),得到的结果是
a.3^4
b.1
c.-1
d.81

9、下列哪个是提取数字和小写字母的正则表达
a.[da+z]-‘
b.[da-z]+’
c.[da-z]-‘
d.[da+z]+’

10、现在有M个桶，每桶都有N个乒乓球，乒乓球的颜色有K种，并且假设第i个桶第j种颜色的球个数为Cij，比例为Rij＝Cij／N，现在要评估哪个桶的乒乓球颜色纯度最高，下列哪种算法和描述是合理的？
a.∑(N/K-Cij)(N/K-Cij)越小越纯
b.-∑Cij*LOG(Rij)越小越纯
c.∑(1-Rij*Rij)越小越纯
d.∑(1-Rij)*(1-Rij)越小越纯
e.∑(1-Rij)^2 越小越纯
f.-∑Rij*LOG(Rij)越小越纯

11、对于数据分析中采集到的原始数据，可能存在的数据本身的问题有：
a.脏数据
b.重复
c.格式错乱
d.缺失值
e.数据量过多
f.异常值

三、多选题

1、某二线城市春节期间5%的司机会被查出酒驾，今年春节某天随机抽查了50个司机，请问如下说法正确的是（）
a.50个司机的抽查是二项分布
b.50个司机的抽查是泊松分布
c.50个司机的抽查是指数分布
d.抽查司机中有2个是酒驾的概率是0.261
e.抽查司机中没有酒驾的概率是0.014
f.抽查司机中3个及以上的酒驾的概率是0.780

2、下列哪些指标能够判定数据的波动
a.均值
b.标准差
c.变异系数
d.相关系数
e.峰值
f.偏度

3、excel工作簿a中有两列id、age，工作簿b中有一列id，需要找到工作薄b中id对应的age，可用的函数包括
a.index+match
b.vlookup
c.hlookup
d.find
e.if
f.like

本文采用「CC BY-SA 4.0 CN」协议转载自互联网、仅供学习交流，内容版权归原作者所有，如涉作品、版权和其他问题请给「我们」留言处理。