大数据练习题

时间：2022-08-25 19:00:00 abs轮速传感器被动式002 fn7325力传感器 fn3060力传感器

单选题（共 201 题，共 201 分）
1. (1 分)
在Linux与实时进程优先级相关的参数有多个？
A：policy
B：counter
C：priority
D：rt_priority
我的答案:

正确答案: D
解析
[技能点：]]
Linux操作系统 > Linux内核与模块

2. (1 分)
以下程序通常与 NameNode 在节点启动
A：SecondaryNameNode
B：DataNode
C：TaskTracker
D：Jobtracker
我的答案:

正确答案: D
解析
[技能点：]]
分布式系统理论 > 分布式存储理论

3. (1 分)
Linux文件权限长度为10位，分为四段。第三段是什么意思？
A：文件类型
B：文件所有者的权限
C：文件所有人所在组的权限
D：其他用户的权限
我的答案:

正确答案: C
解析
[技能点：]]
Linux操作系统 > Linux概念与结构

4. (1 分)
Mapreduce适用于?
A：任何应用程序
B：任意可在windows servet程序在2008上运行
C：可串行处理的应用程序
D：可并行处理的应用程序
我的答案:

正确答案: D
解析
[技能点：]]
数据分析与挖掘 > 大数据

5. (1 分)
哪个关键字定义了记录在某个属性上的约数条件？
A：default
B：distinct
C：unique
D：check
我的答案:

正确答案: D
解析
[技能点：]]
数据分析与挖掘 > SQL

6. (1 分)
hadoop 1.x的HDFS默认Block Size的大小是？
A：32MB
B：256MB
C：128MB
D：64MB
我的答案:

正确答案: D
解析
[技能点：]]
分布式系统理论 > 分布式存储理论

7. (1 分)
谁首先提出了大数据技术的基础？
A：谷歌
B：阿里巴巴
C：百度
D：微软
我的答案:

正确答案: A
解析
[技能点：]]
分布式系统理论 > 分布式存储理论

8. (1 分)
查看内核信息的命令是什么？
A：uname -a
B：ls -l
C：cd
D：tail -f
我的答案:

正确答案: A
解析
[技能点：]]
Linux操作系统 > Linux内核与模块

9. (1 分)
某企业计划规定，今年产值比去年增长4%，实际增长6%，那么企业产值计划的完成程度是多少？
A：150%
B：101.9%
C：66.7%
D：无法计算
我的答案:

正确答案: B
解析
[技能点：]]
统计学基础 > 统计学基础

10. (1 分)
大数据的使用过程是什么？
A：采集-挖掘-清洗-统计
B：采集-统计-清洗-挖掘-挖掘-挖掘-挖掘-挖掘-挖掘-挖掘-挖掘-挖掘-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-挖-
C：采集-清洗-挖掘-统计
D：采集-清洗-统计-挖掘
我的答案:

正确答案: D
解析
[技能点：]]
分布式系统理论 > 分布式存储理论

11. (1 分)
关于Hadoop单机模式和伪分布模式的说法是正确的
A：两者都开始了守护过程，守护过程在机器上运行
B：不使用单机模式HDFS，但加载防护过程
C：两者都不与守护进程交互，避免复杂性
D：后者比前者增加HDFS输入输出和可检查内存的使用情况
我的答案:

正确答案: D
解析
[技能点：]]
Hadoop > Hadoop常用组件

12. (1 分)
管理员在默认情况下创建用户，将在哪个目录下创建用户主目录？
A：/usr
B：/home
C：/root
D：/etc
我的答案:

正确答案: B
解析
[技能点：]]
Linux操作系统 > Linux概念与结构

13. (1 分)
如何删除非空子目录/tmp?
A：del /tmp/*
B：rm -rf /tmp
C：rm -Ra /tmp/*
D：rm –rf /tmp/*
我的答案:

正确答案: B
解析
[技能点：]]
Linux操作系统 > Linux概念与结构

14. (1 分)
storm过程操作的程序是什么？
A：nimbus
B：supervisor
C：两者都有
D：两者都不是
我的答案:

正确答案: C
解析
[技能点：]]
实时计算 > Storm

15. (1 分)
如果在一个匹配中，任何节点都是两个或两个以上的端点，也被称为？
A：极大匹配
B：二分匹配
C：完美匹配
D：极小匹配
我的答案:

正确答案: C
解析
[技能点：]]
数据分析与挖掘 > 数据挖掘的基本概念

16. (1 分)
以下对大数据的理解是错误的？
A：现在已经进入了大数据时代
B：在各个领域都有大数据
C：大数据无所不能
D：大数据是社会进步的体现
我的答案:

正确答案: C
解析
[技能点：]]
分布式文件系统 > 数据管理

17. (1 分)
Linux系统的开发模型是什么？
A：教堂模型
B：集市模型
C：层次模型
D：网状模型
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

18. (1 分)
Samba服务器配置文件是什么？
A：httpd.conf
B：inetd.conf
C：rc.samba
D：smb.conf
我的答案:

正确答案: D
解析
[技能点：]]
Linux操作系统 > Linux文件系统

19. (1 分)
在LINUX查看文件内容可以使用哪些命令？
A：more
B：cd
C：login
D：logout
我的答案:

正确答案: A
解析
[技能点：]]
Linux操作系统 > Linux概念与结构

20. (1 分)
Linux查看文件有三个命令。如果您想在查看文件内容的过程中上下移动光标查看文件内容，则应使用命令
A：cat
B：less
C：more
D：tail
我的答案:

正确答案: B
解析
[技能点：]]
Linux操作系统 > Linux概念与结构

21. (1 分)
可用于数据挖掘分析的相关规则算法包括
A：决策树、对数回归、相关模式
B：K均值法、SOM神经网络
C：Apriori算法、FP-Tree算法
D：RBF神经网络、K均值法，决策树
我的答案:

正确答案: C
解析
[技能点：]]
数据分析与挖掘 > 数据挖掘算法

22. (1 分)
Hadoop在配置文件中，hadoop-site.xml显示覆盖hadoop-default.xml内容。版本0.20中，hadoop-site.xml被分离成三个XML不包括文件
A：conf-site.xml
B：mapred-site.xml
C：core-site.xml
D：hdfs-site.xml
我的答案:

正确答案: A
解析
[技能点:]
Hadoop > Hadoop常用组件

23. (1 分)
HBase底层数据的存储依赖于什么？
A：HDFS
B：Hadoop
C：Memory
D：MapReduce
我的答案:

正确答案: A
解析
[技能点：]]
分布式文件系统 > 数据管理

24. (1 分)
在下列分区中，Linux默认分区是吗？
A：FAT32
B：EXT
C：FAT
D：NTFS
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

25. (1 分)
下面与HDFS类似的框架是？
A：NTFS
B：FAT32
C：GFS
D：EXT3
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

26. (1 分)
HBase依赖什么提供消息通信机制？
A：Zookeeper
B：Chubby
C：RPC
D：Socket
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

27. (1 分)
Sqoop是有什么作用？
A：连接hdfs与关系数据库
B：清洗数据
C：存储数据
D：转换数据
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

28. (1 分)
HFile数据格式中的Data字段用于？
A：存储实际的KeyValue数据
B：存储数据的起点
C：指定字段的长度
D：存储数据块的起点
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

29. (1 分)
关于HDFS的文件写入，正确的是？
A：支持多用户对同一文件的写操作
B：用户可以在文件任意位置进行修改
C：默认将文件块复制成三份存放
D：复制的文件块默认都存在同一机架上
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

30. (1 分)
某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？
A：关联规则发现
B：聚类
C：分类
D：自然语言处理
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

31. (1 分)
hadoop2.x新特性，错误的是？
A：引入了Namenode HA，解决了namenode单点故障
B：引入了YARN，负责资源管理和调度
C：引入了zookeeper，解决了横向内存扩展
D：增加了ResourceManager HA解决了ResourceManager单点故障
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

32. (1 分)
如下哪些不是最近邻分类器的特点？
A：它使用具体的训练实例进行预测，不必维护源自数据的模型
B：分类一个测试样例开销很大
C：最近邻分类器基于全局信息进行预测
D：可以生产任意形状的决策边界
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

33. (1 分)
下面不属于创建新属性的相关方法的是?
A：特征提取
B：特征修改
C：映射数据到新的空间
D：特征构造
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

34. (1 分)
在抽样方法中，当合适的样本容量很难确定时，可以使用的抽样方法是？
A：有放回的简单随机抽样
B：无放回的简单随机抽样
C：分层抽样
D：渐进抽样
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

35. (1 分)
hive是基于hadoop的一个数据仓库，它基于什么存储的
A：hdfs
B：MapReduce
C：S3
D：text
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

36. (1 分)
统计分组的依据是?
A：标志
B：指标
C：标志值
D：变量值
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学概述

37. (1 分)
LINUX交换分区的格式为?
A：ext2
B：ext3
C：FAT
D：swap
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

38. (1 分)
有关hive的说法，错误的是？
A：hive有外部表与内部表之分
B：hive是一个结构化的数据
C：hive表的数据可修改
D：hive应用的是sql
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

39. (1 分)
光盘所使用的文件系统类型为?
A：ext2
B：ext3
C：/etc/rc.d/init.d
D：ISO 9660
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

40. (1 分)
调查时间是指?
A：资料所属的时间
B：调查工作起止的时间
C：规定提交资料的时间
D：开始进行调查的时间
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学概述

41. (1 分)
一个bash shell脚本的第一行是?
A：#/bin/csh
B：#/bin/bash
C：/bin/bash
D：#!/bin/bash
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

42. (1 分)
Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块
A：Client
B：Namenode
C：Datanode
D：Secondary namenode
我的答案:

正确答案: A
解析
[技能点:]
Hadoop > HDFS

43. (1 分)
以下哪项关于决策树的说法是错误的?
A：冗余属性不会对决策树的准确率造成不利的影响
B：子树可能在决策树中重复多次
C：决策树算法对于噪声的干扰非常敏感
D：寻找最佳决策树是NP完全问题
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

44. (1 分)
以下关于人工神经网络（ANN）的描述错误的有?
A：神经网络对训练数据中的噪声非常鲁棒
B：可以处理冗余特征
C：训练ANN是一个很耗时的过程
D：至少含有一个隐藏层的多层神经网络
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

45. (1 分)
HFile数据格式中的MetaIndex字段用于
A：Meta块的长度
B：Meta块的结束点
C：Meta块数据内容
D：Meta块的起始点
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

46. (1 分)
LINUX所有服务的启动脚本都存放在?
A：/etc/rc.d/rc
B：/etc/rc.d
C：/etc/rc.d/init.d
D：/etc/init.d
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

47. (1 分)
LINUX用于启动系统所需加载的内核程序位于?
A：/
B：/lib/modules/2.4.20_8/kernel
C：/boot
D：/proc
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

48. (1 分)
下列那一个指令可以设定使用者的密码?
A：pwd
B：newpwd
C：passwd
D：password
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

49. (1 分)
什么是一个观测值,它与其他观测值的差别如此之大,以至于怀疑它是由不同的机制产生的？
A：边界点
B：质心
C：离群点
D：核心点
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

50. (1 分)
一个文件大小75MB，客户端设置Block大小为64MB，请我其占用几个Block？
A：1
B：2
C：3
D：4
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式数据管理

51. (1 分)
HDFS无法高效存储大量小文件，想让它能处理好小文件，比较可行的改进策略不包括
A：利用SequenceFile、MapFile、Har等方式归档小文件
B：多Master设计
C：Block大小适当调小
D：调大namenode内存或将文件系统元数据存到硬盘里
我的答案:

正确答案: D
解析
[技能点:]
Hadoop > HDFS

52. (1 分)
大数据的本质是？
A：洞察
B：搜集
C：联系
D：挖掘
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

53. (1 分)
可以用来对文件xxx.gz解压缩的命令是?
A：compress
B：uncompress
C：gunzip
D：tar
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

54. (1 分)
支撑大数据业务的基础是？
A：数据科学
B：数据硬件
C：数据人才
D：数据应用
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

55. (1 分)
HDFS默认的当前工作目录是/user/$USER，fs.default.name的值需要在哪个配置文件内说明
A：mapred-site.xml
B：core-site.xml
C：hdfs-site.xml
D：以上均不是
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > HDFS

56. (1 分)
vi中哪条命令是不保存强制退出？
A：:wq
B：:wq!
C：:q!
D：:quit
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

57. (1 分)
以下哪个聚类算法不属于基于网格的聚类算法?
A：STING
B：WaveCluster
C：MAFIA
D：BIRCH
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

58. (1 分)
用于分类与回归应用的主要算法有:
A：Apriori算法、HotSpot算法
B：RBF神经网络、K均值法、决策树
C：K均值法、SOM神经网络
D：决策树、BP神经网络、贝叶斯
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

59. (1 分)
Namenode在启动时自动进入安全模式，在安全模式阶段，说法错误的是
A：安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B：根据策略对数据块进行必要的复制或删除
C：当数据块最小百分比数满足的最小副本数条件时，会自动退出安全模式
D：文件系统允许有修改
我的答案:

正确答案: D
解析
[技能点:]
Hadoop > HDFS

60. (1 分)
下面关于kafka，错误的是？
A：kafka的信息复制确保了任何已发布的消息不会丢失，并且可以在机器错误、程序错误或更常见些的软件升级中使用
B：在Kafka中传递消息是通过使用sendfile API完成的
C：Kafka服务器可以接收到的消息的最大大小是1000字节
D：Kafka是由Apache开发的一种发布订阅消息系统，它是一个分布式的、分区的和重复的日志服务
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

61. (1 分)
在UNIX/Linux系统添加新用户的命令是?
A：groupadd
B：usermod
C：userdel
D：useradd
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

62. (1 分)
HBase虚拟分布式模式需要节点数？
A：1
B：2
C：3
D：4
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

63. (1 分)
在storm中，协调nimbus和supervidor的是？
A：zookeeper
B：oracle
C：hive
D：,hdfs
我的答案:

正确答案: A
解析
[技能点:]
实时计算 > Storm

64. (1 分)
下列关于大数据的说法中，错误的是？
A：处理大数据需采用新型计算架构和智能算法等新技术
B：大数据具有体量大、结构单一、时效性强的特征
C：大数据的应用注重相关分析而不是因果分析
D：大数据的目的在于发现新的知识与洞察并进行科学决策
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

65. (1 分)
下面哪个端口不是 spark 自带服务的端口
A：8080
B：4040
C：8090
D：18080
我的答案:

正确答案: C
解析
[技能点:]
实时计算 > Spark-streaming

66. (1 分)
某种年报制度规定在次年1月31日前上报，则调查期限为？
A：1个月
B：1年
C：1年零1月
D：2个月
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学基础

67. (1 分)
Client 端上传文件的时候下列哪项正确?
A：Client 端将文件切分为 Block，依次上传
B：Client 只上传数据到一台 DataNode，然后由 NameNode 负责 Block 复制工作
C：数据经过 NameNode 传递给 DataNode
D：发送完成信号给SeceonderNameNode
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

68. (1 分)
Stage 的 Task 的数量由什么决定
A：Partition
B：Job
C：Stage
D：TaskScheduler
我的答案:

正确答案: A
解析
[技能点:]
大数据 > Spark

69. (1 分)
hadoop yarn的web接口是？
A：8080
B：50070
C：8088
D：18080
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

70. (1 分)
RED HAT LINUX所提供的安装软件包，默认的打包格式为?
A：tar
B：tar.gz
C：rpm
D：zip
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

71. (1 分)
设X={1，2，3}是频繁项集，则可由X产生多少个关联规则？
A：1
B：2
C：3
D：6
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

72. (1 分)
对于Shell脚本程序，若输入参数数量多于9个，则程序遍历每个参数可通过使用什么命令实现
A：shift
B：ctrl
C：alt
D：shift+ctrl
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

73. (1 分)
下面哪个命令是用来定义shell的全局变量？
A：exports
B：alias
C：export
D：exportfs
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

74. (1 分)
在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为？
A：基于类的排序方案
B：基于规则的排序方案
C：基于度量的排序方案
D：基于规格的排序方案
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

75. (1 分)
关于OLAP和OLTP的区别描述,不正确的是?
A：OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同
B：OLAP的特点在于事务量大,但事务内容比较简单且重复率高
C：与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务
D：OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

76. (1 分)
协调spark master HA的是？
A：zookeeper
B：oracle
C：hive
D：,hdfs
我的答案:

正确答案: A
解析
[技能点:]
实时计算 > Spark-streaming

77. (1 分)
在加权算术平均数中，如果各个变量值都扩大3倍，而频数都减少为原来的三分之一，则平均数?
A：不变
B：减少了
C：扩大3倍
D：不能确定
我的答案:

正确答案: C
解析
[技能点:]
统计学基础 > 统计学基础

78. (1 分)
按调查对象包括的范围不同，统计调查可以分为?
A：经常性调查和一次性调查
B：全面调查和非全面调查
C：统计报表和专门调查
D：普查和抽样调查
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学概述

79. (1 分)
在统计汇总时，如果只要求计算各组分配的单位数，可采用
A：过录法
B：划记法
C：折叠法
D：卡片法
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学概述

80. (1 分)
某班学生50名，男女生各占一半，该班学生性别成数的方差为
A：0.25
B：0.5
C：1
D：5
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学基础

81. (1 分)
检测一元正态分布中的离群点,属于异常检测中的基于什么的离群点检测?
A：统计方法
B：邻近度
C：密度
D：聚类技术
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

82. (1 分)
在Redhat公司发布的Linux版本中，若要使得用户登录验证，需要修改以下脚本？
A：/etc/inittab
B：/etc/passwd
C：/etc/shadow
D：/etc/group
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

83. (1 分)
hadoop master的web接口是？
A：8080
B：50070
C：8088
D：18080
我的答案:

正确答案: B
解析
[技能点:]
分布式文件系统 > 基本架构

84. (1 分)
数据、信息与知识三者之间的变化趋势是？
A：宏课程
B：大课程
C：小课程
D：微课程
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

85. (1 分)
关于hadoop，错误的是？
A：Secondary namenode就是namenode出现问题时的备用节点
B：Hadoop的文件API不是通用的，只用于HDFS文件系统
C：FSDataInputStream是java.io.DataInputStream的子类
D：一台机器可能被指派从输入文件的任意位置开始处理一个分片
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 基本架构

86. (1 分)
下列关于HDFS为存储MapReduce并行切分和处理的数据做的设计，错误的是
A：FSDataInputStream扩展了DataInputStream以支持随机读
B：为实现细粒度并行，输入分片(Input Split)应该越小越好
C：一台机器可能被指派从输入文件的任意位置开始处理一个分片
D：输入分片是一种记录的逻辑划分，而HDFS数据块是对输入数据的物理分割
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > MapReduce & Yarn

87. (1 分)
HDFS的NameNode负责管理文件系统的命名空间，将所有的文件和文件夹的元数据保存在一个文件系统树中，这些信息也会在硬盘上保存成以下文件：
A：日志
B：命名空间镜像
C：两者都是
D：两者都不是
我的答案:

正确答案: C
解析
[技能点:]
Hadoop > HDFS

88. (1 分)
以下哪些算法是分类算法?
A：DBSCAN
B：C4.5
C：K-Mean
D：EM
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

89. (1 分)
sql语言中，删除表中的数据的命令是？
A：delete
B：drop
C：clear
D：remove
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > SQL

90. (1 分)
在数据生命周期管理实践中，什么是执行方法
A：数据存储和备份规范
B：数据管理和维护
C：数据价值发觉和利用
D：数据应用开发和管理
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

91. (1 分)
关于Linux内核版本的说法，以下错误的是?
A：表示为主版本号.次版本号.修正号
B：1.2.3表示稳定的发行版
C：1.3.3表示稳定的发行版
D：2.2.5表示对内核2.2的第5次修正
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux内核与模块

92. (1 分)
如果时间数列的逐期增长量大致相等，则适宜配合？
A：直线模型
B：抛物线模型
C：曲线模型
D：指数曲线模型
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学基础

93. (1 分)
将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？
A：频繁模式挖掘
B：数据预处理
C：分类和预测
D：数据流挖掘
我的答案:

正确答案: B
解析
[技能点:]
数据挖掘 > 算法框架

94. (1 分)
在基本K均值算法里,当邻近度函数采用什么的时候,合适的质心是簇中各点的中位数？
A：平方欧几里德距离
B：余弦距离
C：Bregman散度
D：曼哈顿距离
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

95. (1 分)
SQL语言中允许使用通配符进行字符串匹配，其中‘%’可以表示？
A：零个字符
B：一个字符串
C：多个字符串
D：以上都是
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > SQL

96. (1 分)
分析顾客消费行业，以便有针对性的向其推荐感兴趣的服务，属于?
A：关联规则挖掘
B：分类与回归
C：聚类分析
D：时序预测
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

97. (1 分)
什么是KDD？
A：数据挖掘与知识发现
B：领域知识发现
C：文档知识发现
D：动态知识发现
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

98. (1 分)
如果要列出一个目录下的所有文件需要使用命令行?
A：ls
B：ls -l
C：ls -a
D：ls -d
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux概念与结构

99. (1 分)
想向表中添加一条记录，应该用哪一条sql语句？
A：alter table
B：insert into table
C：create table
D：drop table
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > SQL

100. (1 分)
下列哪项通常是集群的最主要瓶颈？
A：CPU
B：网络
C：磁盘 IO
D：内存
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

101. (1 分)
hdfs的存储大数据，错误的是？
A：适合大数据处理
B：一次写入，多次读取。文件一旦写入不能修改，只能追加
C：低延时数据访问
D：不可构建在廉价机器上
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 基本架构

102. (1 分)
当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？
A：分类
B：聚类
C：关联分析
D：隐马尔可夫链
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

103. (1 分)
下面标志符不合法的是
A：[my del]
B：_maybase
C：$money
D：tiger
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > SQL

104. (1 分)
下面与Zookeeper类似的框架是？
A：Protobuf
B：Java
C：Kafka
D：Chubby
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

105. (1 分)
BIRCH是一种?
A：分类器
B：聚类算法
C：关联分析算法
D：特征选择算法
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

106. (1 分)
OLAP技术的核心是?
A：在线性
B：对用户的快速响应
C：互操作性
D：多维分析
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

107. (1 分)
spark 的 master 和 worker 通过什么方式进行通信的？
A：http
B：nio
C：netty
D：Akka
我的答案:

正确答案: D
解析
[技能点:]
实时计算 > Spark-streaming

108. (1 分)
sql的视图是从哪里导出的？
A：基本表
B：视图
C：基本表或者视图
D：数据库
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > SQL

109. (1 分)
大数据的起源是？
A：金融
B：电信
C：互联网
D：公共管理
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 大数据

110. (1 分)
HBase分布式模式最好需要节点数？
A：1
B：2
C：3
D：4
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

111. (1 分)
在使用mkdir命令创建新的目录时，在其父目录不存在时先创建父目录的选项是？
A：-m
B：-p
C：-l
D：-a
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

112. (1 分)
以下选项中，哪个命令可以关机?
A：init0
B：init1
C：init5
D：init6
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

113. (1 分)
配置Hadoop时，JAVA_HOME包含在哪一个配置文件中
A：hadoop-default.xml
B：hadoop-env.sh
C：hadoop-site.xml
D：configuration.xml
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > Hadoop常用组件

114. (1 分)
在图集合中发现一组公共子结构,这样的任务称为？
A：频繁子集挖掘
B：频繁子图挖掘
C：频繁数据项挖掘
D：频繁模式挖掘
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

115. (1 分)
只有非零值才重要的二元属性被称作?
A：计数属性
B：离散属性
C：非对称的二元属性
D：对称属性
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

116. (1 分)
以下哪个命令可以终止一个用户的所有进程?
A：skillall
B：skill
C：kill
D：killall
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

117. (1 分)
ageRank是一个函数,它对Web中的每个网页赋予一个实数值。它的意图在于网页的PageRank越高,那么它就?
A：越重要
B：越不重要
C：相关性越高
D：相关性越低
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

118. (1 分)
分布式最典型的产品是什么？
A：hadoop
B：mysql
C：spark
D：storm
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 数据管理

119. (1 分)
一下哪个不是逻辑运算符？
A：NOT
B：AND
C：OR
D：IN
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > SQL

120. (1 分)
hadoop集群之间是什么提供消息通信机制
A：Zookeeper
B：Chubby
C：RPC
D：Socket
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 数据管理

121. (1 分)
现在需要统计当前目录/home/zheng下普通文件的数目并显示结果,如何实现？
A：$find –type f | wc –l
B：$find f | wc –l
C：$find –type f | wc –c
D：$find f | wc –c
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

122. (1 分)
关联规则的评价指标是？
A：均方误差、均方根误差
B：Kappa统计、显著性检验
C：支持度、置信度
D：平均绝对误差、相对误差
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

123. (1 分)
欲把当前目录下的 file1.txt 复制为 file2.txt，正确的命令是?
A：copy file1.txt file2.txt
B：cp file1.txt | file2.txt
C：cat file2.txt file1.txt
D：cat file1.txt > file2.txt
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

124. (1 分)
下面关于文件 "/etc/sysconfig/network-scripts/ifcfg-eth0"的描述哪个是正确的?
A：它是一个系统脚本文件
B：它是可执行文件
C：它存放本机的名字
D：它指定本机eth0的IP地址
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux文件系统

125. (1 分)
为卸载一个软件包，应使用?
A：rpm -i
B：rpm -e
C：rpm -q
D：rpm -V
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

126. (1 分)
若一台计算机的内存为128MB，则交换分区的大小通常是？
A：64MB
B：128MB
C：256MB
D：512MB
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux文件系统

127. (1 分)
在创建Linux分区时，一定要创建哪两个分区?
A：FAT/NTFS
B：FAT/SWAP
C：NTFS/SWAP
D：SWAP/根分区
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux内核与模块

128. (1 分)
某文件的组外成员的权限为只读；所有者有全部权限；组内的权限为读与写，则该文件的权限为?
A：467
B：674
C：476
D：764
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

129. (1 分)
在vi编辑器里，命令"dd"用来删除当前的?
A：行
B：字
C：字符
D：变量
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

130. (1 分)
决策树中不包含一下哪种结点?
A：根结点
B：内部结点
C：外部结点
D：叶结点
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

131. (1 分)
下面选项中t不是s的子序列的是
A：s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B：s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C：s=<{1,2},{3,4}> t=<{1},{2}>
D：s=<{2,4},{2,4}> t=<{2},{4}>
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

132. (1 分)
第一个提出大数据概念的公司是？
A：微软公司
B：脸谱公司
C：谷歌公司
D：麦肯锡公司
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式存储理论

133. (1 分)
下面哪个程序负责HDFS数据存储？
A：NameNode
B：secondaryNameNode
C：tasktracker
D：DataNode
我的答案:

正确答案: D
解析
[技能点:]
分布式系统理论 > 分布式数据管理

134. (1 分)
简单表与分组表的区别在于?
A：主词是否分组
B：宾词是否分组
C：分组标志的多少
D：分组标志是否重叠
我的答案:

正确答案: A
解析
[技能点:]
统计学基础 > 统计学概述

135. (1 分)
有关维克托·迈尔舍恩伯格对大数据的定义是哪个
A：数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成人类所能解读的信息
B：用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法
C："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率的信息资产
D：大数据就是量大
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 大数据

136. (1 分)
怎样显示当前目录？
A：pwd
B：who
C：ls
D：mkdir
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux文件系统

137. (1 分)
/etc/shadow文件中存放？
A：用户账号基本信息
B：用户口令的加密信息
C：用户组信息
D：文件系统信息
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux文件系统

138. (1 分)
在出生婴儿中，男性占53%，女性占47%，这是?
A：比例相对指标
B：强度相对指标
C：比较相对指标
D：结构相对指标
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学基础

139. (1 分)
数据仓库是随着时间变化的,下面的描述不正确的是？
A：数据仓库随时间的变化不断增加新的数据内容
B：捕捉到的新数据会覆盖原来的快照
C：数据仓库随事件变化不断删去旧的数据内容
D：数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

140. (1 分)
下面聚集函数中哪个只能用于计算数值类型的数据？
A：count()
B：min()
C：max()
D：sum()
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > SQL

141. (1 分)
Spark 支持的分布式部署方式中哪个是错误的
A：standalone
B：spark on mesos
C：spark on YARN
D：Spark on local
我的答案:

正确答案: D
解析
[技能点:]
实时计算 > Spark-streaming

142. (1 分)
出现在datanode的VERSION文件格式中但不出现在namenode的VERSION文件格式中的是
A：namespaceID
B：storageID
C：storageType
D：layoutVersion
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > HDFS

143. (1 分)
大数据时代，数据使用的关键是？
A：数据存储
B：数据分析
C：数据再利用
D：数据分析
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

144. (1 分)
HBase依赖什么提供强大的计算能力？
A：Zookeeper
B：Chubby
C：RPC
D：MapReduce
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

145. (1 分)
下面哪个属于映射数据到新的空间的方法？
A：傅立叶变换
B：特征加权
C：渐进抽样
D：维归约
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

146. (1 分)
对于System V类型的共享内存页面，Linux基于什么算法决定哪些页面应当被换出物理内存？
A：shell
B：clock
C：show
D：uname
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux内核与模块

147. (1 分)
在sql语言中，建立存储过程的命令是？
A：create procedure
B：create rule
C：create dure
D：create file
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > SQL

148. (1 分)
当运行在多用户模式下时，用Ctrl+ALT+F*可以切换多少虚拟用户终端？
A：1
B：2
C：6
D：4
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux文件系统

149. (1 分)
以下哪个聚类算法不是属于基于原型的聚类?
A：模糊C均值
B：EM算法
C：SOM
D：CLIQUE
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

150. (1 分)
Hive中存放是什么？
A：数据+元数据
B：数据
C：元数据
D：应用
我的答案:

正确答案: A
解析
[技能点:]
分布式文件系统 > 元数据管理

151. (1 分)
在创建表的过程中，哪个关键字用来定义默认值
A：default
B：distinct
C：unique
D：check
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > SQL

152. (1 分)
Master 的 ElectedLeader 事件后做了哪些操作
A：通知 drive
B：通知 worker
C：注册 application
D：直接 ALIVE
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

153. (1 分)
关闭linux系统（不重新启动）可使用?
A：ctrl+alt+del
B：halt
C：shutdown -r
D：reboot
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

154. (1 分)
HBase来源于哪一项？
A：The Google File System
B：MapReduce
C：Chubby
D：BigTable
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 数据管理

155. (1 分)
规则I->j,“有可能”,等于所有包含I的购物篮中同时包含J的购物篮的比例,为?
A：置信度
B：可信度
C：兴趣度
D：支持度
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

156. (1 分)
哪个命令可以将普通用户转换成超级用户?
A：tar
B：super
C：mkdir
D：su
我的答案:

正确答案: D
解析
[技能点:]
Linux操作系统 > Linux概念与结构

157. (1 分)
MapReduce框架提供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法错误的是？
A：实现Writable接口的类是值
B：实现WritableComparable接口的类可以是值或键
C：Hadoop的基本类型Text并不实现WritableComparable接口
D：键和值的数据类型可以超出Hadoop自身支持的基本类型
我的答案:

正确答案: C
解析
[技能点:]
分布式文件系统 > 基本架构

158. (1 分)
用最小平方法配合直线趋势，如果y=a+bx中b为正值，则这条直线呈？
A：下降趋势
B：上升趋势
C：不升不降
D：无法确定
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学基础

159. (1 分)
下面哪个命令用来启动X Window?
A：runx
B：Startx
C：startX
D：xwin
我的答案:

正确答案: C
解析
[技能点:]
Linux操作系统 > Linux文件系统

160. (1 分)
标志变异指标中最常用的是？
A：全距
B：平均差
C：标准差
D：离散系数
我的答案:

正确答案: C
解析
[技能点:]
统计学基础 > 统计学概述

161. (1 分)
下列度量不具有反演性的是？
A：系数
B：几率
C：Cohen度量
D：兴趣因子
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

162. (1 分)
关于 SecondaryNameNode 哪项是正确的?
A：它对内存没有要求
B：它的目的是帮助 NameNode 合并编辑日志，减少 NameNode 启动时间
C：SecondaryNameNode 应与 NameNode 部署到一个节点
D：他没什么用
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

163. (1 分)
HDFS有一个gzip文件大小75MB，客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为
A：64M
B：75M
C：128M
D：一个map读取64MB，另外一个map读取11MB
我的答案:

正确答案: B
解析
[技能点:]
Hadoop > MapReduce & Yarn

164. (1 分)
增长1%的绝对值是？
A：增长量与增长速度之比
B：逐期增长量与定基增长速度之比
C：增长量与发展速度之比
D：前期水平除以100
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学基础

165. (1 分)
变量是可变的
A：品质标志
B：数量标志
C：数量标志和指标
D：质量指标
我的答案:

正确答案: C
解析
[技能点:]
统计学基础 > 统计学概述

166. (1 分)
hadoop的监控，正确的是？
A：Ganglia 不仅可以进行监控，也可以进行告警
B：Nagios 是集群监控工具，而且是云计算三大利器之一
C：通过将 Ganglia 和 Nagios 组合起来，把 Ganglia 采集的数据作为 Nagios 的数据源，然后利用 Nagios 来发送预警通知
D：Nagios 不可以监控 Hadoop 集群
我的答案:

正确答案: D
解析
[技能点:]
分布式文件系统 > 基本架构

167. (1 分)
若使pid进程无条件终止使用的命令是?
A：kill -9
B：kill -15
C：killall -9
D：kill -3
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux内核与模块

168. (1 分)
hive 的元数据存储在 derby 和 MySQL 中有什么区别
A：没区别
B：多会话
C：支持网络环境
D：数据库的区别
我的答案:

正确答案: B
解析
[技能点:]
分布式文件系统 > 数据管理

169. (1 分)
当前社会中，最为突出的大数据环境是？
A：互联网
B：物联网
C：综合国力
D：自然资源
我的答案:

正确答案: A
解析
[技能点:]
分布式系统理论 > 分布式存储理论

170. (1 分)
以下哪些分类方法可以较好地避免样本的不平衡问题?
A：KNN
B：SVM
C：Bayes
D：神经网络
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

171. (1 分)
协同过滤分析用户兴趣,在用户群中找到指定用户的相似(兴趣)用户,综合这些用户对某一信息的评价,形成系统对该指定用户对此信息的喜好程度什么,并将这些用户喜欢的项推荐给有相似兴趣的用户？
A：相似
B：相同
C：推荐
D：预测
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

172. (1 分)
显示已经挂装的文件系统磁盘inode使用状况的命令是?
A：df -i
B：su -i
C：du -i
D：free -i
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux内核与模块

173. (1 分)
MapReduce的Map函数产生很多的?
A：key
B：value
C：
D：Hash
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 大数据

174. (1 分)
若要将鼠标从VM中释放出来，可按哪个键来实现？
A：Ctrl + Alt
B：Ctrl +Alt +Del
C：Ctrl +Alt +Enter
D：Ctrl +Enter
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

175. (1 分)
下面哪个不属于数据的属性类型?
A：标称
B：序数
C：区间
D：相异
我的答案:

正确答案: D
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

176. (1 分)
什么是统计工作的根本准则，是统计工作的生命线？
A：及时性
B：完整性
C：连续性
D：真实性
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学概述

177. (1 分)
当使用mount进行设备或者文件系统挂载的时候，需要用到的设备名称位于哪个目录？
A：/home
B：/dev
C：/bin
D：/etc
我的答案:

正确答案: B
解析
[技能点:]
Linux操作系统 > Linux概念与结构

178. (1 分)
已知各期环比增长速度为7.1%、3.4%、3.6%、5.3%，则定基增长速度是？
A：7.1%*3.4%*3.6%*5.3%
B：(7.1%*3.4%*3.6%*5.3%)-1
C：107.1%*103.4%*103.6%*105.3%
D：(107.1%*103.4%*103.6%*105.3%)-1
我的答案:

正确答案: D
解析
[技能点:]
统计学基础 > 统计学基础

179. (1 分)
统计对总体数量的认识是
A：从总体到单位
B：从单位到总体
C：从定量到定性
D：以上都对
我的答案:

正确答案: B
解析
[技能点:]
统计学基础 > 统计学概述

180. (1 分)
从研究现状上看，下面不属于云计算特点的是?
A：超大规模
B：虚拟化
C：私有化
D：高可靠性
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

181. (1 分)
HDfS中的block默认保存几份？
A：1
B：2
C：3
D：4
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式存储理论

182. (1 分)
通过聚集多个分类器的预测来提高分类准确率的技术称为
A：组合(ensemble)
B：聚集(aggregate)
C：合并(combination)
D：投票(voting)
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘算法

183. (1 分)
一个对象的离群点得分是该对象周围密度的逆。这是基于什么的离群点定义？
A：概率
B：邻近度
C：密度
D：聚类
我的答案:

正确答案: C
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

184. (1 分)
Linux系统中，用户文件描述符0表示？
A：标准输入设备文件描述符
B：标准输出设备文件描述符
C：管道文件描述符
D：标准错误输出设备文件描述符
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux概念与结构

185. (1 分)
Task 运行在下来哪里个选项中 Executor 上的工作单元
A：Driver program
B：spark master
C：worker node
D：Cluster manager
我的答案:

正确答案: C
解析
[技能点:]
实时计算 > Spark-streaming

186. (1 分)
大数据的最显著特征是？
A：数据类型多样
B：数据规模大
C：数据处理速度快
D：数据价值密度高
我的答案:

正确答案: B
解析
[技能点:]
分布式系统理论 > 分布式存储理论

187. (1 分)
Spark Job 默认的调度模式？
A：FIFO
B：FAIR
C：无
D：运行时指定
我的答案:

正确答案: A
解析
[技能点:]
实时计算 > Spark-streaming

188. (1 分)
在Red Hat Linux中，系统默认的什么用户对整个系统拥有完全的控制权？
A：root
B：guest
C：administrator
D：supervistor.
我的答案:

正确答案: A
解析
[技能点:]
Linux操作系统 > Linux文件系统

189. (1 分)
下列关于MapReduce说法不正确的是
A：MapReduce是一种计算框架
B：MapReduce来源于google的学术论文
C：MapReduce程序只能用java语言编写
D：MapReduce隐藏了并行计算的细节，方便使用
我的答案:

正确答案: C
解析
[技能点:]
分布式系统理论 > 分布式数据管理

190. (1 分)
概念分层图是什么图？
A：无向无环
B：有向无环
C：有向有环
D：无向有环
我的答案:

正确答案: B
解析
[技能点:]
数据分析与挖掘 > 数据挖掘基础概念

191. (1 分)
一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是?
A：一年级
B：二年级
C：三年级
D：四年级
我的答案:

正确答案: A
解析
[技能点:]
数据分析与挖掘 > 数据挖掘流程

192. (1 分)
下面哪个不是 RDD 的特点？
A：可分区
B：可修改
C：可序列化
D：可持久化
我的答案:

正确答案: B
解析
[

锐单商城拥有海量元器件数据手册、IC替代型号，打造电子元器件IC百科大全！

大数据练习题

相关文章