【超详细】数据分析笔试题分享,可以收藏后仔细阅读_数据分析岗位笔试题目-程序员宅基地

技术标签: python  数据分析  机器学习  sql  概率论  

大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!

感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。


又到了笔试题分享环节,今天的数据分析笔试题来自于迅雷网络,尽管你不打算投这家公司,也完全可以仔细做一遍题,增长一下笔试经验。

另外,对于第二大题,有想法的朋友也可以和我交流。

一、21道不定项选择题

1、 以下选项不正确的是() A,B,D
A、使用drop会释放空间
B、Truncate可以搭配where使用
C、alter…drop… 可用于除去表中字段
D、Delete会释放空间

解析:

A项,drop后的表被放在回收站(user_recyclebin)里,而不是直接删除掉。这样,回收站里的表信息就可以被恢复,或彻底清除,若要彻底删除表,则使用语句:drop table <table_name> purge;
B项D项,truncate 删除表同时释放表空间,不能加where条件,delete只是删除记录,不释放表空间;
C项,alter table [表名] drop column [列名]用于除去表中特定字段。

2、以下常用于衡量用户粘性的指标有哪些() A,B,D
A、DAU
B、Usage Penetration
C、Revenue
D、Retention

解析:

A项,DAU,日活跃用户数量;
B项,Usage Penetration,使用行为渗透率,一段时间内使用该应用的用户百分比;
C项,Revenue,收入;
D项,Retention,用户留存。

3、一年四个季度,第二到第四个季度对于上个季度的销售额增长率分别为5%、10%、15%,请问第四个季度相对于第一季度的增长率约为() D
A、50%
B、80%
C、30%
D、33%

解析:

1.05 ∗ 1.10 ∗ 1.15 = 1.32825 1.05 * 1.10 * 1.15=1.32825 1.051.101.15=1.32825

4、有两个拥有完全相同字段的表,其中一个有10行数据,另一个有5行数据,以下结论不正确的是() A
A、使用left join连接后的表的数据一定不超过10行
B、使用left join连接后的表的数据可能为10行
C、使用left join连接后的表的数据可能超出10行
D、使用left join连接后的表的数据可能小于10行

解析:

Left Join 连接后的表的数据量可能大于小于或等于左表的数据量。
当where 条件在外,会先聚合后过滤,结果会变少;连接的判断条件也可能使左表的一行数据连接的数据超过一行,结果会变多。

5、以下算法哪些属于聚类算法() A, B, D
A、DBSCAN
B、EM
C、KNN
D、K-means

解析:

KNN算法属于分类算法。

6、有关hive内部表和外部表与元数据之间的关系的题,具体也忘了。

7、下列有关欠采样的说法,不正确的有() A,B
A、欠采样是通过增加少数类的数据来达到平衡的效果
B、神经网络算法对于不平衡数据并不敏感
C、欠采样可以用于平衡数据(这个我也忘记了)
D、欠采样是通过减少多数类的数据来达到平衡的效果,可能导致过拟合的情况

8、忘了题目的数据,但主要就是考察你是否认识以下指标。

LT, 用户生命周期, 是用户自激活开始至最后一次活跃期间的活跃天数
LTV,用户生命周期价值,是产品从用户获取到流失所得到的全部收益的总和。
ROI,投资回报率,是指通过投资而应该返回的价值,即企业从某项投资行为中得到的经济利益回报。
ARPU,计算公式为:ARPU 值=总收入 / 用户数
ARPPU,平均每付费用户收益

9、下列哪些方法可用于缺失值的处理() A,B,C,D
A、均值填充
B、高维映射
C、建模预测
D、删除缺失数据

解析:

B项,将属性映射到高维空间,采用独热码编码(one-hot)技术。将包含K个离散取值范围的属性值扩展为K+1个属性值,若该属性值缺失,则扩展后的第K+1个属性值置为1。这种做法是最精确的做法,保留了所有的信息,也未添加任何额外信息,若预处理时把所有的变量都这样处理,会大大增加数据的维度。这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值;缺点是计算量大大提升,且只有在样本量非常大的时候效果才好。

10、以下哪些方法不属于过滤式特征选择() C
A、相关系数法
B、卡方检验
C、PCA
D、方差选择

解析:

A项,使用pearson系数作为特征评分标准,相关系数绝对值越大,相关性越强(相关系数越接近于1或-1时,相关性越强;相关系数越接近于0时,相关性越弱)。特点:皮尔森相关系数法能够衡量线性相关的特征集;
B项, 使用统计量卡方检验作为特征评分标准,卡方检验值越大,相关性越强(卡方检验是评价定性自变量对定性因变量相关性的统计量);
D项,使用方差作为特征评分标准,如果某个特征的取值差异不大,通常认为该特征对区分样本的贡献度不大,因此在构造特征过程中去掉方差小于阈值的特征。

11、问以下哪种情况可能会提高GMV() A,B,C,D
A、商品涨价
B、商品降价
C、日活量提高
D、新用户增多

解析:

GMV指标通常称为网站成交金额,属于电商平台企业成交类指标。

12、以下哪种方法无法定义出dict类型的数据() B
A、d = {123: ‘abc’}
B、d = {[123]: ‘abc’}
C、d = {(1,2,3): ‘abc’}
D、d = {}

解析:

python中字典的key不能是可变类型。字典可存储任意类型对象,其中值可以取任何数据类型,但键必须是不可变的,如字符串、数字或元组。
所以B项不可以,而D项也是可以的,大家不信可以自己去定义一个然后type一下。

13、以下关于原假设 H 0 H_0 H0和备择假设 H 1 H_1 H1的说法,不正确的是() C,D
A、 H 1 H_1 H1通常是支持结论
B、 H 0 H_0 H0 H 1 H_1 H1是相互对立的
C、假设检验前,先确定备择假设
D、 H 0 H_0 H0也称对立假设

解析:

A项我也没懂啥意思(如果意思 H 1 H_1 H1是我们希望被证实的结论,那就没错),C项感觉也有歧义(按我理解应该是先确定原假设再确定备择假设);D项错了,应该是 H 1 H_1 H1备择假设也称对立假设。

14、一道SQL选择题,考group by 和where,简单。

15、在某座城市出现了某种流行病,且已知某座城市男女人数相同,男性患该病的概率为5%,女性为0.25%,现已知该城市的小明得了此病,请问小明为男性的概率是() B
A、5%
B、95%
C、40%
D、60%

解析:

令人是男性为事件A,女性为事件B,患病为事件C,则 P ( A ) = 0.5 , P ( B ) = 0.5 , P ( C ∣ A ) = 0.05 , P ( C ∣ B ) = 0.0025 P ( A ∣ C ) = P ( C ∣ A ) ∗ P ( A ) P ( C ∣ A ) ∗ P ( A ) + P ( C ∣ B ) ∗ P ( B ) = 0.952 P(A)=0.5,P(B)=0.5,P(C|A)=0.05,P(C|B)=0.0025\\P(A|C)=\frac{P(C|A)*P(A)}{P(C|A)*P(A)+P(C|B)*P(B)}=0.952 P(A)=0.5,P(B)=0.5,P(CA)=0.05,P(CB)=0.0025P(AC)=P(CA)P(A)+P(CB)P(B)P(CA)P(A)=0.952

16、ABtest可以用于以下哪些场景(),挺简单的,具体我忘了

17、某类app产品发送优惠短信给很久未使用该产品的用户,不可能出于以下哪种目的()) B
A、留住用户
B、增长新用户量
C、提高营业额
D、忘了

18、有关arpu和arppu的计算,挺简单的,是单选题

19、x=1, y=2, z=3, 以下说法正确的是()
A、x = (y==z+1) 结果x=1,y=2,z=3
下面三个没印象了,挺简单的
然后A是错的

20、某一电视台的播放量下降了,可能是以下哪些原因()
选项忘了,不难

21、离散系数的计算公式是()

解析:

离散系数的计算公式:标准差与平均数的比值称为离散系数或变异系数。
我记得题目中没有这种说法,而是方差的算法平方根与平均数的比值称为离散系数或变异系数。

二、3道客观题+1道SQL题

1、某一支付类app的会员支付金额上涨了,分析为什么?可以以某一类app为例

2、举出你熟悉的app体验不满意的地方,并作为分析师,给出分析方法。可以以某一类app为例

3、说说你对用户画像的理解。并且分析怎么利用用户画像提高利润额。可以以某一类app为例

4、是一道SQL综合题,一共有3小题,都不难,主要考察到差窗口函数和left join,以及判断数据是否只含有字母和数字(需要用到REGEXP)。

结束语

文中的答案仅为参考答案,而非标准答案,请仔细阅读后自行判断,有意见的朋友可以评论区留言讨论。


推荐关注的专栏

机器学习:分享机器学习实战项目和常用模型讲解
数据分析:分享数据分析实战项目和常用技能整理


关注我,了解更多相关知识!


CSDN@报告,今天也有好好学习

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_44186838/article/details/120734558

智能推荐

BAT批处理文件 拷贝与删除命令(copy,xcopy,del,rd)_bat copy-程序员宅基地

文章浏览阅读3.6w次,点赞12次,收藏41次。copy命令将一份或多份文件复制到另一个位置。COPY [/D] [/V] [/N] [/Y | /-Y] [/Z] [/L] [/A | /B ] source [/A | /B][+ source [/A | /B] [+ …]] [destination [/A | /B]]source指定要复制的文件。/A表示一个 ASCII 文本文件。/B表示一个二..._bat copy

iOS UIWebView URL拦截_ios webview 拦截请求使用本地资源-程序员宅基地

文章浏览阅读845次。本文译者:candeladiao,原文:URL filtering for UIWebView on the iPhone说明:译者在做app开发时,因为页面的javascript文件比较大导致加载速度很慢,所以想把javascript文件打包在app里,当UIWebView需要加载该脚本时就从app本地读取,但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法,第一次翻译,难免有_ios webview 拦截请求使用本地资源

jsp中basepath的作用的思考_jsp文件中的basepath为啥-程序员宅基地

文章浏览阅读1.8k次。JSP里的basePath(本文为转载文章,文章转载自http://blog.csdn.net/lutinghuan/article/details/6450174)Eclipse 新建 jsp页面里自动生成以下代码:String path = request.getContextPath();String basePath = request.getScheme()+_jsp文件中的basepath为啥

httpclient常用基本抓取类_httpclient获得类标签-程序员宅基地

文章浏览阅读4.2k次。package com.reallyinfo.athena.crawlMethodManager;import java.io.IOException;import java.io.InputStream;import java.io.InputStreamReader;import java.io.Reader;import java.io.UnsupportedEn_httpclient获得类标签

单片机的ADC注意事项_dsp28034 adc运行卡死-程序员宅基地

文章浏览阅读1.4k次,点赞2次,收藏6次。大部分ADC转换的第一次是不准的,所以第一次先转换一下,丢弃,后面再转换,保存ADC 滤波方法建议采用中值平均滤波法,有两种,第一种占用内存烧,第二种滤波更好,占内存大,和时间慢 /*********************************************************函数名: unsigned int ADCRead()描 述: ADC转换程序,转换18次,..._dsp28034 adc运行卡死

cyj sql 收藏_sql语句中的ü-程序员宅基地

文章浏览阅读427次。select count(*) a,b from talble group BY b having count(*)>1 order BY a desc_sql语句中的ü

随便推点

地名经纬度互相转换_bmap 根据名称转经纬度-程序员宅基地

文章浏览阅读2.3k次。//经纬度转化为地名 var coser = new BMap.Geocoder(); coser.getLocation(new BMap.Point(116.401481,39.914776),function(result){ console.log(result); }) //地名转化为经纬度 var coser = new _bmap 根据名称转经纬度

Unity UGUI CanvasGroup组件的详解_unity canvas 中的grp-程序员宅基地

文章浏览阅读6.9k次,点赞4次,收藏8次。对于CanvasGroup组件,我们一定要引起高度重视,它很好用的呢。首先创建一个buttonBig,它很大♂,我将它的image里面的颜色alpha调至一半,颜色稍红。添加CanvasGroup组件然后创建两个小的button。他们都是默认的样子。之后调整大button,使大Button在小Button的上面。然后以大Button为父对象,创建一些UGUI的其他物件,像sli..._unity canvas 中的grp

所谓数据驱动,这个锅技术不能背。-程序员宅基地

文章浏览阅读304次。最近这几年,互联网有俩词挺流行,一个是数据驱动,一个是技术无罪。我们说很多产品决策的依据不是管理者拍脑袋,而是基于数据反馈,这当然是好事情。我们说互联网产生了很多新模式,..._点击提权 caoz

IP地址与子网掩码(网络地址与广播地址相关计算)_10.25.0.1子网掩码-程序员宅基地

文章浏览阅读5.5k次,点赞6次,收藏30次。文章目录一、IP地址1.1 IP地址的概念1.2 IP地址的分类私有地址1.3 IP地址的构成1.4 IP地址查询方式二、子网掩码2.1 子网掩码的概念2.2子网掩码的作用2.3子网掩码换算表三、网络地址四、广播地址五、利用以上内容解决问题一、IP地址1.1 IP地址的概念概念:IP地址是给每个连接在Internet上的主机分配的一个32bit地址。按照TCP/IP协议规定,IP地址用二进制来表示,每个IP地址长32bit,比特换算成字节,就是4个字节。包括主机地址和网络地址两部分。所以,IP地址由_10.25.0.1子网掩码

Web 趋势榜:上周不可错过的最热门的 10 大 Web 项目 - 210416-程序员宅基地

文章浏览阅读237次。大家好,我是你们的 猫哥,那个不喜欢吃鱼、又不喜欢喵 的超级猫 ~GitHub 上面有个 Trending 榜 (趋势榜),在 Trending 页面,你可以看到最近一些热门的开源项目或者..._github 一周热门

intel历代架构演进2——NetBurst微架构_intel netburst 微架构-程序员宅基地

文章浏览阅读2.9k次。NetBurst架构提供如下功能:The Rapid Execution Engine— Arithmetic Logic Units (ALUs) run at twice the processor frequency— Basic integer operations can dispatch in 1/2 proces_intel netburst 微架构