⼀起学⼀学,⼤数据的⼏个重要概念
01.什么是⼤数据?
熟悉键盘数据是对客观事实进⾏记录的⼀种符号,可以是数字、⽂字,也可以是图⽚、⾳频、视频。⼤数据是指⽆法在⼀定时间范围内⽤常规软件进⾏捕捉、管理和数据的数据集合。
⼤数据具有"5V"特点,即数据量⼤、数据多样性、价值密度低、增长速度快、数据质量低。
⼤数据时代强调数据的全部,⽽不是局部的样本数据。由于⼤数据的价值密度低,我们要接受这种模糊和不精确性。通过对数据的研究,发现以前不曾发现的联系,⽽不是像⼩数据时代,先通过假设,然后再⽤数据来验证。也就是说,在⼤数据时代,对相关性的重视程度要强于因果性。
02.什么是结构化和⾮结构化数据?
结构化数据是适合⽤⼆维表格展现的数据。每⼀⾏是⼀条记录,每⼀列是不同的字段。
以电商⽹站为例,⽤户信息就可以⽤结构化数据来存储。每位⽤户就是⼀条记录,⽽每位⽤户⼜有姓名、性别、地址、⼿机、邮箱等字段,这样就形成了⼀个⼆维表格。
⾮结构化数据不适合⽤⼆维表格来展现,⽐如⽂档、图⽚、⾳频、视频等。⾮结构化数据的格式多样,难以标准化和理解,因此在存储、检索、利⽤上都需要更加有效的⽅法和技术。
03.什么是数据库
数据库从字⾯意思来看就是存储数据的地⽅,但数据的存储不是杂乱⽆章的,⽽是按照⼀定的规则来存储的,具有可共享和便于管理的特点。数据库被视为电⼦化的⽂件柜。⽤户可以对数据库中的数据进⾏增、删、改、查等操作。数据库可分为关系型数据库、⾮关系型数据库、数据仓库等类型。
04.什么是数据挖掘?
祝福语母亲节⼀般⽽⾔,数据挖掘分为两类:⼀类是监督学习,另⼀类是⽆监督学习。监督学习是对⽬标需求的概念进⾏学习,通过建⽴模型来实现从观察变量到⽬标需求的有效解释。⽆监督学习没有明确的标识变量来表达⽬标需求,主要任务是探索数据之间的内在联系和结构。
数据挖掘融合了多学科领域的知识,常⽤的算法有分类、聚类分析、关联分析、趋势与演化分析、特征分析、异常分析等。
电脑自动关机重启是什么原因
05.什么是数据可视化?
数据可视化就是借助图形化的⼿段,清晰有效地传达与沟通信息。
利⽤⼈类对形状、颜⾊的敏感,有效地传递信息,帮助⽤户从数据中发现关系、规律和趋势。常⽤的数据可视化图表有柱状图、条形图、饼图、雷达图、折线图、堆积图、散点图等。
06.什么是数据集成?
由于开发部门或开发时间的不同,企业中往往有多个异构的、运⾏在不同的软硬件平台上的数据库,这些数据库彼此独⽴、相互封闭,使得数据难以在系统之间交流和共享,从⽽形成了"信息孤岛"。随着信息化应⽤的不断深⼊,企业内部之间、企业与外部的信息交互的需求⽇益强烈,急切需要对已有的数据进⾏整合,打通"信息孤岛",这就是数据集成的意义。
07.什么是数据清洗?
数据清洗是⼀种清除错误数据、去掉重复数据的技术。数据经过清洗之后,可以还保存到原来的数据库中,也可以和数据集成联系在⼀起,最终保存到集成后的数据库⾥。
08.什么是数据分析?
数据分析是基于商业需要,有⽬的的对数据进⾏收集、整理、加⼯、分析,最终提炼有价值的信息的过程。
数据分析的四个步骤:
和声城市
需求分析、明确⽬标;
数据收集、加⼯处理;
数据挖掘、数据展现;
分析报告、提炼价值。
09.什么是数据仓库?
朴寒星的老公数据仓库 (Data Warehouse) 简称DW,存储⼤量数据的集成中⼼。数据仓库的⽬的是构建⾯向分析的集成化数据环境,为企业提供决策⽀持(Decision-Support)。它为企业提供⼀定的BI(商业智能)能⼒,指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库的输⼊⽅是各种各样的数据源,最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。
10.什么是数据集市?
数据仓库是⾯向整个企业的,⽽数据集市是⾯向部门的,因此规模更⼩,由业务部门设计、开发、管理、维护,可以理解为是数据库的⼦集。
数据集市就像宜家楼上的家居展厅,正如其名字"集市"⼀样,是⼀个⾯向最终顾客的数据市场。在这⾥,数据(家具)以⼀种更加容易被顾客接受的⽅式组合在⼀起。顾客的需求是分场景的,⽐如客厅、书房、卧室、厨房等,因此我们需要创建多个数据集市(展厅)。齐豫和齐秦的身世