《数据科学与大数据通识导论》题库及答案-2019年温州市工程技术系列专业技术人员继续教育

1. 数据科学的三大支柱与五大要素是什么？

答：数据科学的三大主要支柱为：

Datalogy (数据学)：对应数据管理 (Data management)

Analytics (分析学)：对应统计方法 (Statistical method)

Algorithmics (算法学)：对应算法方法 (Algorithmic method)

数据科学的五大要素：

A-SATA模型

分析思维 (Analytical Thinking)

统计模型 (Statistical Model)

算法计算 (Algorithmic Computing)

文根英张根硕数据技术 (Data Technology)

综合应用 (Application)

研究生毕业感言2. 如何辨证看待“大数据”中的“大”和“数据”的关系？

字面理解

Large、vast和big都可以用于形容大小

Big更强调的是相对大小的大，是抽象意义上的大

大数据是抽象的大，是思维方式上的转变

量变带来质变，思维方式，方法论都应该和以往不同

计算机并不能很好解决人工智能中的诸多问题，利用大数据突破性解决了，其核心问题变成了数据问题。

3. 怎么理解科学的范式？今天如何利用这些科学范式？

科学的范式指的是常规科学所赖以运作的理论基础和实践规范，是从事某一科学的科学家

体所共同遵从的世界观和行为方式。

第一范式：经验科学

第二范式：理论科学

第三范式：计算科学

第四范式：数据密集型科学

今天，是数据科学，统一于理论、实验和模拟

4. 从人类整个文明的尺度上看，IT和DT对人类的发展有些什么样的影响和冲击？

史上最贱小游戏

以控制为出发点的IT时代正在走向激活生产力为目的的DT（Data Technology）数据时代。

大数据驱动的DT时代

由数据驱动的世界观

大数据重新定义商业新模式

大数据重新定义研发新路径

大数据重新定义企业新思维

5. 大数据时代的思维方式有哪些？

“大数据时代”和“智能时代”告诉我们：

数据思维：讲故事数据说话

总体思维：样本数据全局数据

容错思维：精确性混杂性、不确定性

相关思维：因果关系相关关系

智能思维：人人机协同（人 + 人工智能）

6. 请列举出六大典型思维方式；

直线思维、逆向思维、跳跃思维、归纳思维、并行思维、科学思维

7. 大数据时代的思维方式有哪些？

同5

8. 二进制系统是如何实现的？

计算机用0和1来表示和存储所有的数据，它的基数为2，进位规则是“逢二进一”，用1表示开，0表示关

9. 解释比特、字节和十六进制表示。

比特：一位 0、1 ；字节：8比特，从000到111，十六进制：0000到1111十六个数分别用0,1,2,3,4,5,6,7,8,9，A，B，C,D,E,F 来表示

10. 请辨析现象、数据、信息和知识这几个概念。

信息是关于世界、人和事的描述，它比数据来得抽象；而数据则是信息的载体。

知识比信息更高一个层次，也更加抽象，它具有系统性的特征。

比如通过测量星球的位置和对应的时间，就得到数据；通过这些数据得到星球运转的轨迹，这就是信息；通过信息总结出开普勒三定律，就是知识。

从现象、数据到信息、知识，抽象层次是越来越高的。

人类的进步就是靠使用知识不断地改变我们的生活和周围的世界，而数据是知识的基础。

11. 简述冯·诺依曼计算机工作原理

存储程序控制

程序和数据都用二进制数表示

机器以CPU为中心

12. 简述GB2312编码和Unicode编码原理;

GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换，通行于中国大陆;新加坡

等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区，每区有94个位。每个区位上只有一个字符，因此可用所在的区和位来对汉字进行编码，称为区位码。

Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

13. 简述摩尔定律。

摩尔定律是由英特尔（Intel）创始人之一戈登·摩尔（Gordon Moore）提出来的。其内容为：当价格不变时，集成电路上可容纳的元器件的数目，约每隔18-24个月便会增加一倍，性能也将提升一倍。换言之，每一美元所能买到的电脑性能，将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度。

14. 为什么计算机系统要往并行与异构的方向发展？

单核CPU已经走到尽头，不能承载更多的晶体，所以采用多核和GPU及FPGA等并行与异构，多台计算机一起工作，进一步提升计算性能

15. 什么是云计算？

云计算的定义：

云计算是一个模型，这个模型可以方便地按需通过网络访问一个可配置的计算资源（例如，网络、服务器、存储设备、应用程序以及服务）的公共及。这额资源可以迅速提供并发布，同时最小化管理成本或服务提供商的干涉。

16. 为什么说数据上云是一种趋势？

大数据上云，数据上云，分析上云，人工智能上云，数据上云是一种趋势

17. 从技术体系和资源结构两方面谈一下云计算的逻辑平台组成。

云平台的逻辑组成

技术体系：IaaS, PaaS, SaaS（Technically）

资源结构：计算、存储、网络

18. 数据获取过程可分为哪几个步骤？

数据获取阶段的任务是以数字形式将信息聚合, 以待存储和分析处理，数据获取过程可分为三个步骤：

数据采集

数据传输

数据预处理

19. 数据预处理需要做哪些工作？

数据预处理

由于数据源的多样性，数据集由于干扰、冗余和一致性因素的影响具有不同的质量。

一些数据分析工具和应用对数据质量有着严格的要求。因此在大数据系统中需要数据预处

理技术提高数据的质量。

数据集成（Data integration）

数据清洗（Data cleansing）

冗余消除（Redundancy elimination

20. 数据的存储方式有哪些？

数据的存储方式：纸带

磁带

数字存储

随机存取存储器（Random access memory，RAM）

磁盘（HDD）和磁盘阵列

存储级存储器：闪存、SSD

光盘

21. 什么是大数据的计算模式？

所谓大数据计算模式，即根据大数据的不同数据特征和计算特征，从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象（abstraction）或模型（model）。

22. 简述大数据的四种主要分析技术。

大数据的四种主要分析技术

（1）统计分析

忘带身份证怎么坐高铁

（2）机器学习

冰箱选购是一门研究机器获取新知识和新技能，
并识别现有知识的学问。

（3）数据挖掘

从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

（4）可视化分析

统计学主要是通过机器学习来对数据挖掘发挥影响，而机器学习和数据库则是数据挖掘的两大支撑技术。

23. 简述数据库的事务ACID性质

数据库的事务处理（ACID）性质：

原子性（Atomicity）：不可分割

一致性（Consistency）：前后一致

隔离性（Isolation）：并发

持久性（Durability）：永久

24. 关系代数的五种基本运算分别是什么？水晶帘动微风起

关系代数的五种基本运算分别是并、差、投影、选择、笛卡尔积

25. 简述数据仓库的四种类型。

数据仓库的四种类型：

传统数据仓库

实时处理数据仓库

关联发现数据仓库

数据集市

26. 什么是GFS?请简述GFS的特点？

GFS是一个可扩展的分布式文件系统，用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上，将服务器故障视为正常现象，通过软件的方式自动容错，

在保证系统可靠性和可用性的同时，大大减少了系统的成本。

系统分为三类角：

Master（主服务器）

Chunk Server（数据块服务器）。

Client（客户端）

27. 请简述HDFS的特点。

Hadoop是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有着高容错性的特点，并且设计用来部署在低廉的硬件上。

HDFS 集包含：

一个主节点（ NameNode ）

多个从属节点（DataNodes ）

多个客户端访问

28. 大数据系统为什么要采用分布式的架构？

大数据是数据库的自然延伸：分布式。

由于大数据要处理大量、非结构化的数据，所以在各处理环节中都可以采用并行处理。

目前，Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。

29. 什么是有向图、邻接矩阵、超链接矩阵。

一个有向图D是指一个有序三元组(V(D)，A(D)，ψD)，其中ψD)为关联函数，它使A(D)中的每一个元素(称为有向边或弧)对应于V(D)中的一个有序元素(称为顶点或点)

为研究需要，我们定义邻接矩阵

进一步，如果将邻接矩阵中的元素除以对应节点的出度，可以得到该图的超链接矩阵

30. 如何计算PageRank的值?

PageRank算法

第一步：将互联网作为一个有向图，并用邻接矩阵进行表示；

第二步：将该邻接矩阵转换为超链接矩阵；

第三步：求解该超链接矩阵的最大特征向量（如幂迭代法）；

第四步：求得的特征向量中的值即为对应网页的PageRank值。

31. 典型的数据挖掘技术有哪些？

典型的数据挖掘技术：关联分析、序列模式、分类（预言）、聚集、异常检测

32. 数据挖掘的标准流程分为那几个步骤？请分别简述它们。

商业理解：问题－确定商业目标、对现有资源的评估，确定问题是否能够通过数据挖掘来解决，确定数据挖掘的目标，制定数据挖掘计划

数据理解：

数据准备：确定数据挖掘所需要的数据，对数据进行描述，数据的初步探索，检查数据的质量

建立模型：对各个模型进行评价，选择数据挖掘模型，建立模型

模型评估：评估数据挖掘的结果，对整个数据挖掘过程的前面步骤进行评估，确定下一步怎么办？是发布模型？还是对数据挖掘过程进行进一步的调整，产生新的模型

模型发布：把数据挖掘模型的结果送到相应的管理人员手中，对模型进行日常的监测和维护，定期更新数据挖掘模型

《数据科学与大数据通识导论》题库及答案-2019年温州市工程技术系列专业技术人员继续教育

发布评论取消回复

最近发表

热门文章

标签列表