学习⼤数据,你的职业是如何规划的?
作为IT类职业中的“⼤熊猫”,⼤数据⼈才(数据⼯程师,数据分析师,数据挖掘师,算法⼯程师等)、在国内⼈才市场可谓是⼀颗闪耀的新星。由于刚刚出于萌芽阶段,这个领域出现很⼤的⼈才缺⼝。
1 ⼤数据⼈才做什么?
2 需要具备的能⼒
2.1 精通SQL
2.2 数据模型技能
2.3 ETL设计
2.4 架构项⽬
3 知识体系
机器学习基础
机器学习⼯具
3.1 ⼤数据通⽤处理平台
3.2 分布式存储
3.3 资源调度
3.4 机器学习⼯具运动会投稿100字左右
3.5 数据分析/数据仓库(SQL类)
3.6 消息队列
3.7 流式计算
法国旅游签证3.8 ⽇志收集
3.9 编程语⾔
3.10 数据分析挖掘
3.11 数据可视化
西红柿炒鸡蛋怎样炒3.12 机器学习
4 ⼤数据⼈才的职业发展
4.1 薪酬待遇
4.2 职业发展路径
1 ⼤数据⼈才做什么?
⼤数据是眼下⾮常时髦的技术名词,与此同时⾃然也催⽣出了⼀些与⼤数据处理相关的职业,通过对
数据的挖掘分析来影响企业的商业决策。⼤数据⼯程师就是⼀“玩数据”的⼈,玩出数据的商业价值,让数据变成⽣产⼒。⼤数据和传统数据的最⼤区别在于,它是在线的、实时的,规模海量且形式不规整,⽆章法可循,因此“会玩”这些数据的⼈就很重要。
因此,分析历史、预测未来、优化选择,这是⼤数据⼈才在“玩数据”时最重要的三⼤任务。通过这三个⼯作⽅向,他们帮助企业做出更好的商业决策,出最优化的结果。
2 需要具备的能⼒
2.1 精通SQL
如果英语是业务的交流⼯具,那么SQL就是数据的交流⼯具。⼀个不会流利的英语的业务⼈员能有多⼤的成就?不管任何技术时代的产⽣和更替,SQL⼀直是数据的通⽤语。数据⼯程师应该有能⽤SQL表达任何‘相关⼦查询’和窗⼝函数复杂度的技术能⼒。对数据⼯程师来说初始SQL/DML/DDL简单到根本没有难度。即使是没有接触过SQL的⼈,他也能读懂并明⽩数据库的执⾏计划,了解所有步骤,知道程序怎么被调⽤,连接算法的不同和执⾏计划内的分布式维度。
2.2 数据模型技能
作为⼀个数据⼯程师,有对实体-关系模型的认知反射,规范化的清晰认识,权衡反规范化的敏锐直
觉。数据⼯程师应该熟悉维度建模及相关概念与术语。
2.3 ETL设计
能够写出有效率、有弹性的、“可发展”的ETL任务是⼀个关键。
2.4 架构项⽬
就如任何⼀个领域的专家的专业技能⼀样,数据⼯程师需要⼀个较⾼层次的综括,对⼤多数的⼯具,平台,库,和其他供他⽀配的资源的了解。认识到不同类型的数据库、计算引擎、流处理器、消息队列、⼯作流协调器、序列化格式及其他相关技术的属性、⽤例、微妙之处。在设计解决⽅案的时候,他应该有能⼒选择即将要使⽤的技术,并有⼀个构想去协调怎么使他们⼀起更好地⼯作。
3 知识体系
3.1 ⼤数据通⽤处理平台
Spark
Flink
Hadoop
3.2 分布式存储
HDFS
3.3 资源调度
Yarn
Mesos
3.4 机器学习⼯具
Mahout
Spark Mlib
TensorFlow (Google 系)
Amazon Machine Learning
DMTK (微软分布式机器学习⼯具) 3.5 数据分析/数据仓库(SQL类) Pig
Hive
kylin
Spark SQL,
Spark DataFrame
Impala
Phoenix
ELK
ElasticSearch
Logstash
Kibana
3.6 消息队列
Kafka(纯⽇志类,⼤吞吐量) RocketMQ
ZeroMQ
ActiveMQ
RabbitMQ
3.7 流式计算
Storm/JStorm
Spark Streaming
Flink
3.8 ⽇志收集
Scribe
Flume
3.9 编程语⾔
Java
Python
公司委托书范本R
Ruby
Scala
感恩的话语3.10 数据分析挖掘
MATLAB
SPSS
SAS
3.11 数据可视化
R
D3.js
ECharts
Excle
Python
3.12 机器学习
机器学习基础
聚类
时间序列
推荐系统
回归分析
⽂本挖掘
决策树
⽀持向量机
贝叶斯分类
神经⽹络
深度学习
机器学习⼯具
Mahout
Spark Mlib
TensorFlow (Google 系)
多少笔画
Amazon Machine Learning
DMTK (微软分布式机器学习⼯具)
4 ⼤数据⼈才的职业发展
4.1 薪酬待遇
作为IT类职业中的“⼤熊猫”,⼤数据⼈才的收⼊待遇可以说达到了同类的顶级。国内IT、通讯、⾏业招聘中,有10%都是和⼤数据相关的,且⽐例还在上升。在美国,⼤数据⼯程师平均每年薪酬⾼达17.5万美元,⽽据了解,在国内顶尖互联⽹类公司,同⼀个级别⼤数据⼯程师的薪酬可能要⽐其他职位⾼20%⾄30%,且颇受企业重视。
4.2 职业发展路径
由于⼤数据⼈才数量较少,因此⼤多数公司的数据部门⼀般都是扁平化的层级模式,⼤致分为数据分析师、资深研究员、部门总监3个级别。⼤公司可能按照应⽤领域的维度来划分不同团队,⽽在⼩公司则需要⾝兼数职。有些特别强调⼤数据战略的互联⽹公司则会另设最⾼职位—如阿⾥巴巴的⾸席数据官。这个职位的⼤部分⼈会往研究⽅向发展,成为重要数据战略⼈才。另⼀⽅⾯,⼤数据⼯程师对商业和产品的理解,并不亚于业务部门员⼯,因此也可转向产品部或市场部,乃⾄上升为公司的⾼级
管理层。