软件工程师题库150_5月试题与答案
1. Hadoop运行模式不包括() [单选题] *
A.分布式
B.中心版(正确答案)
C.单机版
D.伪分布式
2. 哪一个方法不在FileInputFormat类中(),不用考虑方法参数。 [单选题] *
A. addInputPath()
B. getPathStrings()
C. getSplits()
D. List()(正确答案)
3. HIVE与传统SQL数据库对比,下面描述不正确的是() [单选题] *
A. 对于查询语言:HIVE使用HQL,传统SQL数据库使用SQL
B. 对于数据存储:HIVE使用HDFS存储,传统SQL数据库使用本地磁盘
C. 最终执行者:HIVE使用MapReduce和Excutor执行,传统SQL数据库使用Excutor执行器(正确答案)
D. 执行延迟:HIVE属于高,传统SQL数据库属于低
4. Namenode在启动时自动进入安全模式,在安全模式阶段,说法错误的是() [单选题] *
A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B.根据策略对数据块进行必要的复制或删除
读取配置文件失败C.当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D.文件系统允许有修改(正确答案)
5. Hive数据仓库和关系型数据库mysql的区别()考研数学一二三区别 *
A.Hive不支持事务而mysql支持事务
B.hive高延迟而mysql相对低延迟。土地使用证(正确答案)
C.Hive不支持索引而mysql支持索引。(正确答案)
D.Hive的分区和mysql的分区都用表内字段。
6. 以下hive sql语法正确的是() [单选题] *
A.select * from a inner join b on a.id<>b.id
B.select * from a where a.id in (select id from b)
C.select sum(a.amt) as total from a al>20
D.select * from a inner join b on a.id=b.id(正确答案)
7. 有关HIVE中ORDER BY 和 SORT BY 用法正确的是( ) [单选题] *
单卡双模什么意思
SORT BY 用于分组汇总
SORT BY 用于局部排序,ORDER BY用于全局排序(正确答案)
使用完全一致
其他说法都不对
8. 在hive中下列哪些命令可以实现去重( ) [单选题] *
distinct(正确答案)
group by
row_number
having
9. 如果需要配置Apache版本的hadoop的完全分布式,需要更改哪些xml配置文件( ) *
l(正确答案)
l(正确答案)
l(正确答案)
l(正确答案)
10. 下列哪些参数可以影响切片数量?( ) *
MinSize(正确答案)
MaxSize(正确答案)
blockSize(正确答案)
premisson
答案解析:默认切片公式computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
11. Yarn的调度几种方式( ) [单选题] *
FIFO Scheduler
Capacity Scheduler
FairScheduler
以上都是(正确答案)
12. 以下哪一项不属于 YARN的进程是() [单选题] *
A.ResourceManager
B.NodeManager
C.MRAppMaster
D.Master(正确答案)
13. HDFS2.X默认 Block size的大小是() [单选题] *
A 32MB
B 64MB
C 128MB(正确答案)
D.256M
答案解析:HDFS的块比磁盘的块大,其目的是为了最小化寻址开销。如果块设置得足够大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而,传输一个由多个块组成的文件的时间取决于磁盘传输速率。
如果寻址时间约为10ms,而传输速率为100MB/s,为了使寻址时间仅占传输时间的1%,我们要将块大小设置约为100MB。默认的块大小128MB。
块的大小:10ms*100*100M/s = 100M
李维嘉为什么突然暴瘦14. 下列关于 MapReduce说法不正确的是() [单选题] *
A. MapReduce是一种计算框架
B. MapReduce来源于 google的学术论文
C. MapReduce程序只能用java语言编写(正确答案)
D. MapReduce隐藏了并行计算的细节,方便使用
15. HDFS是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性高可扩展性、高吞吐率等特征,适合的读写任务是() [单选题] *
A.一次写入,少次读
B.多次写入,少次读
C.多次写入,多次读
D.一次写入,多次读(正确答案)
16. HBase依靠存储底层数据() [单选题] *
A. HDFS(正确答案)
B. Hadoop
C.Memory
D. MapReduce
17. 关于 Secondary Name Node下面哪项是正确的() [单选题] *
A.它是 Name Node的热备
B.它对内存没有要求
C.它的目的是帮助 NameNode合并编辑日志,减少 Name Node启动时间(正确答案)
D. SecondaryName Node应与 Name Node部署到一个节点
18. 大数据的特点不包括下面哪一项() [单选题] *
赵又廷 周渝民
A.巨大的数据量
B.多结构化数据
C.增长速度快
D.价值密度高(正确答案)
19. 配置 Hadoop时, JAVA_HOME包含在哪一个配置文件中() [单选题] *
A. l
B.hadoop-env.sh(正确答案)
C.hadoop-site. xml
D.configuration.xsl
20. 出现在 datanode的 VERSI0N文件格式中但不出现在 namenode的VRSI0N文件格式中的是() [单选题] *