1000个大数据开发学习知识点最全汇总

1.Zookeeper用于集主备切换。

2.YARN让集具备更好的扩展性。

3.Spark没有存储能力。

4.Spark的Master负责集的资源管理，Slave用于执行计算任务。

5.Hadoop从2.x开始，把存储和计算分离开来，形成两个相对独立的子集：HDFS和YARN，MapReduce依附于YARN来运行。

6.YARN可以为符合YARN编程接口需求的集提供调度服务。

7.YARN：

ResourceManager一主多备

NodeManager一般与DataNode部署在一起。

8.单机硬件配置会严重影响集的性能。

9.初始化集机器环境：创建账号、安装JDK、设置时间同步。

10.Zookeeper的部署最简单，其节点数必为奇数。

11.ZK两个端口，前者是链接Leader后者是用于竞选。

12.部署Spark StandLone集：

1.SSH无密码登录

2.复制解压Spark

3.编写配置文件分发到所有节点

13.Hadoop2.x以上支持双机热备。

14.Standlone模式只支持简单的固定资源分配策略。

15.YARN统一为集上的所有计算负载分配资源，可以避免资源分配的混乱无序。

16.Spark程序由Master还是YARN来调度执行，是由Spark程序在提交时决定的。

山口组女人

17.YARN两种调度模式：

Yarn-cluster模式，用于生产卫衣怎么搭配

Yarn-client模式，用于交互

18.Spark计算都是围绕RDD进行的。

19.Spark在运行时，一般RDD操作会为每个RDD分区运行一个job。

20.Job最简单的理解，它对应一个java线程。

21.Spark所有基于文件的生产RDD方法，都支持目录、压缩文件和通配符。

22.RDD是Spark的核心抽象，所有计算都围绕RDD进行。

23.RDD操作分为两类：

Transformation转换

Action动作

24.所有Transformation都是Lazy模式，先记录计算方式，Driver返回结果时开始计算。

25.RDD的Transformation实际计算只在Action返回结果时才进行，或者持久化。

26.Spark严重依赖传递函数类型的参数。

27.从Driver分发各个节点过程：

Job执行：

1.在Driver节点上序列化代码

2.传送至各个计算节点

3.在计算节点上反序列化

4.执行

28.Scala function支持序列化。

29.Spark的核心是RDD，而RDD是分布式计算的。

30.Spark会将Job运行所有依赖的变量、方法、（闭包）全部打包在一起序列化。

31.RDD操作的禁忌，不能嵌套调用。

32.Action操作输出不再是RDD，返回值Driver程序。

33.Spark集上的资源主要是CPU core数量和物理内存。

34.在程序运行时，每个core对应一个线程。

35.Standlone模式下由Spark集中的master节点进行资源调度。

36.Spark调度两类：

1.spark程序见的调度（主）

2.spark程序内部的调度

37.用户编写的spark程序称为Driver程序。

38.每个驱动程序都有一个SparkContext对象，担负着与集沟通的职责。

千金归来剧情介绍

39.集管理器负责集的资源调度。

40.执行器，每个spark程序在每个节点上启动的一个进程。

41.一次RDD Action对应一次job。

42.Stage，job在执行过程中被分为多个阶段。

43.Task，在执行器上执行的最小单位。

44.Spark程序间的调度：

静态分配（主）

动态分配

45.所有集管理器都支持静态资源分配。

46.当spark为多用户服务时，需要配置spark程序内部的调度。

47.不同线程提交的job可以并行执行。

48.默认spark的调度器以FIFO方式运行Job。

49.公平调度还支持对多个Job进行分组，分组称为调度池。

50.Spark性能优势，很大一部分原因是内存和缓存。

51.RDD持久化可以多次利用，性能提高10倍以上。

52.Spark提供两类共享变量——广播变量和计数器。

53.广播变量是一个只读变量，在所有节点上都是一份缓存。

54.计数器只能增加，用于技术和求和。

55.容错机制是分布式系统的一个重要能力。

56.DAG：有向无环图的计算任务集合。

57.分布式系统经常需要做检查点。

58.RDD也是一个DAG，每一个RDD都会记住创建该数据需要哪些操作——血统。

59.RDD依赖：

窄依赖——父分区对应一个子分区

宽依赖——父分区对应多个子分区

60.Spark提供了预写日志（journal），先将数据写入支持容错的文件系统中。

61.Spark master容错：

Standalone——Zookeeper

单点——本地重启

62.Slave节点失效：

1.Work异常停止

2.执行器异常停止

3.Driver异常退出

63.监控管理：

补水效果好的爽肤水1.Web界面

2.Metrics娘开头的成语

3.外部系统

64.Web界面：

1.调度器stage，Task列表

2.RDD大小和内存文件统计情况

3.环境信息

送杜少府之任蜀州翻译4.正在执行的执行器信息

65.Standlone模式的集管理器有自己的web界面。

66.Web界面表格的头部都支持点击排序。

67.Spark程序一般都是由脚本bin/spark-submit来提交的。

68.RDD特点：

1.RDD是只读的

2.RDD可指定缓存在内存中

3.RDD可以通过重新计算得到

69.RDD核心属性：

1.一个分区列表

2.一个依赖列表

3.一个名为compute的计算函数

4.分区器

5.计算各分区是优先的位置列表

1000个大数据开发学习知识点最全汇总

发布评论取消回复

最近发表

热门文章

标签列表