数据清洗(Data cleansing/Data cleaning/Data scrubbing)可以有多种表述方式,其定义依赖于具体的应用。因此,数据清洗的定义在不同的应用领域不完全相同。例如,在数据仓库环境下,数据清洗是抽取转换装载过程的一个重要部分,要考虑数据仓库的集成性与面向主题的需要(包括数据的清洗及结构转换)。不过,现在业界一般认为,数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,以及去除空白数据域和知识背景下的白噪声。
2)数据清洗有哪些应用领域?
3)数据清洗的原理是什么?
数据清洗的原理为:利用有关技术,如统计方法、数据挖掘方法、模式规则方法等将脏数据转换为满足数据质量要求的数据。数据清洗按照实现方式与范围,可分为手工清洗和自动清洗。
4)什么是数据标准化?
数据的标准化,是通过一定的数学变换方式,将原始数据按照一定的比例进行转换,使之落入到一个小的特定区间内,例如0~1或-1~1的区间内,消除不同变量之间性质、量纲、数量级等特征属性的差异,将其转化为一个无量纲的相对数值。因此标准化数值是使各指标的数值都处于同一个数量级别上,从而便于不同单位或数量级的指标能够进行综合分析和比较。
5)数据清洗的工具有哪些?
OpenRefine又叫做GoogleRefine,是一个新的具有数据画像、清洗、转换等等功能的工具,它可以观察和操纵数据。DataCleaner是一个简单,易于使用的数据质量的应用工具,旨在分析,比较,验证和监控数据。它能够将凌乱的半结构化数据集转换为所有可视化软件,并可以读取的干净可读的数据集。此外,DataCleaner还提供数据仓库和数据管理服务。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Beeload是由北京灵蜂纵横软件有限公司研发的一款ETL工具。此外,在进行数据清洗时,还可以使用Excel进行最简单的数据清洗工作。也可以使用编程工具Python来实现数据清洗
6)请简述如何安装常见的数据清洗软件。
要安装 Kettle必须首先从网上下载,此外,由于 Kettle是基于java开发的,所以需要java环境。jdk网址:acle/technetwork/java/javase/downloads/index.html 。
1)下载,首先从上下载jdk。
2)配置path变量,下载完之后进行安装,安装完毕后要进行环境配置。在我的电脑、高级、环境变量中到path变量,并把java的bin路径添加进去用分号隔开,注意要到自己安装的对应路径。例如D:\Program Files\Java\jdk1.8.0_181\bin。
3)配置classpath变量,在环境变量中新建一个classpath变量,里面的内容要填java文件夹中lib文件夹下 dt.jar和tools.jar的路径。例如D:\Program Files\Java\jdk1.8.0_181\lib\dt.jar,D:\Program Files\Java\jdk1.8.0_181\lib\tools.jar。
4)在配置完后运行cmd命令,输入命令java
习题2
1)请阐述什么是数据质量。
数据质量正是企业应用数据的瓶颈,高质量的数据可以决定数据应用的上限,而低质量的数据则必然拉低数据应用的下限。数据质量一般指数据能够真实、完整反映经营管理实际情况的程度
2)请阐述如何提高数据质量。
(1)定义一套标准化的数据规范
(2)加大对数据质量的管理
(3)加大对开源工具的应用
3)请阐述什么是数据预处理。
数据预处理是对于数据的预先处理,数据预处理的作用就是为了提高数据挖掘的质量。数据预处理有多种方法:数据清洗,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
4)数据清洗有哪些常用方法?
数据缺失值的处理,噪声数据的处理,冗余数据的处理
5)什么是正态分布?
正态分布也称“常态分布”或“高斯分布”,是连续随机变量概率分布的一种。它是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。正态分布的曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线
pdf转html6)如何识别离点?
(1)分箱法
(2)回归法
(3)聚类分析
(4)估算分析法
(5)3∂原则
习题3
(1)请阐述什么是文件格式。
文件格式是指在计算机中为了存储信息而使用的对信息的特殊编码方式,是用于识别内部储存的资料。
(2)Windows中有哪些常见的文件格式?
1.文本文件格式
2.图像文件格式
3.音频与视频文件格式
(3)什么是数据类型?
数据类型是指是一个值的集合和定义在这个值集上的一组操作的总称。它的出现是为了把数据分成所需内存大小不同的数据,以便于程序的运行。通常可以根据数据类型的特点将数据
划分为不同的类型,如原始类型、多元组、记录单元、代数数据类型、抽象数据类型、参考类型以及函数类型等。在每种编程语言和数据库中都有不同的数据类型。
(4)什么是字符编码?
字符编码也叫作字集码,把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见的例子包括将拉丁字母表编码成摩斯电码和ASCII。
(5)如何使用Python进行常见的数据类型的转换?
csv到JSON的转换
import json
fo=open("test.csv","r")
ls=[]
for line in fo:
place("\n","")
ls.append(line.split(','))
fo.close()
fw=open("test.json","w")
for i in range(1,len(ls)):
ls[i]=dict(zip(ls[0],ls[i]))
json.dump(ls[1:],fw,sort_keys=True,indent=4,ensure_ascii=False)
fw.close()
习题4
(1)请阐述数据采集的含义。
数据采集又称数据获取,是指利用某些装置,从系统外部采集数据并输入到系统内部的一个接口。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,比如摄像头、麦克风以及各类传感器等都是数据采集工具。
(2)数据采集有哪些主流的工具和平台?
在数据采集过程中,人们可以使用网卡、条形码、触摸屏、PDA、RFID等各种设备进行数据的采集。数据采集与一般的传统采集不同,大数据的采集过程的主要特点和挑战是并发数高,采集平台有Flume、 Kafka、Fluentd、Splunk、Chukwa、Scribe。采集工具有鸟巢采集器、简数数据采集平台、GrowingIO、后羿采集器、八爪鱼采集器等。
(3)请阐述网络爬虫的含义。
网络爬虫(Web Spider)又称之为网络机器人、网络蜘蛛,是一种通过既定规则,能够自动提取网页信息的程序。爬虫的目地在于将目标网页数据下载至本地,以便进行后续的数据分析。
(4)请阐述数据抽取的含义。
数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程,它的实质是将数据从各种原始的业务系统中读取出来,它是大数据工作开展的前提。目前常用以下两种方式来实现数据抽取:关系库中的数据抽取和非关系数据库中的数据抽取。
(5)请阐述如何使用Kettle抽取网页中的数据。
习题和答案
1. VLOOKUP函数与HLOOKUP函数相比有何区别,尝试使用VLOOKUP函数完成查询操作。
VLOOKUP是按列(即垂直方向)查,最终返回该列所需查询列序所对应的值;与之对应的HLOOKUP是按行(即水平方向)查的。实际工作中,VLOOKUP函数较LOOKUP函数与HLOOKUP函数运用更广泛,它极大的提高了日常工作的效率与经济效益,尤其是对相邻的工作取数非常方便,不用再重复录入或者复制,最重要的是,内容会随着数据源的变化而变化,这也是它功能强大之处,省去了改表的麻烦。
2. 根据某公司员工基本信息表,按如下要求完成相应数据的清洗操作
(1) 根据身份证号截取员工的出生日期
答案:截取生日的条件为:当员工的身份证号是18位时,从第7位~第11位是员工的出生年份;第12位和第13位是员工的出生月份;第14位和第15位是员工的出生日。当员工的身份证号为15位时,从第7位~第8位是员工的出生年份后两位数,再加上1900,即为出生年份;第9位和第10位是员工的出生月份,第11位和第12位是员工的出生日。如果员工的身份证号既不是18位,又不是15位时,请返回“身份证号码有误,请检查!”的提示信息。
输入假定B2是员工身份证号的单元格,在C2单元格中输入公式:=IF(LEN(B2)=18,MID(B2,7,
4)&"/"&MID(B2,11,2)&"/"&MID(B2,13,2),IF(LEN(B2)=15,"19"&MID(B2,7,2)&"/"&MID(B2,9,2)&"/"&MID(B2,11,2),"身份证号码有误,请检查!"))
还可以使用公式:
=IF(LEN(B2)=18,MID(B2,7,4)&"?"&MID(B2,11,2)&"?"&MID(B2,13,2),IF(LEN(B2)=15,"19"&MID(B2,7,2)&"?"&MID(B2,9,2)&"?"&MID(B2,11,2),"身份证号码有误,请检查!"))
或者使用公式:=IF(OR(LEN(B2)=18,LEN(B2)=15),TEXT(IF(LEN(A37)=15,19,"")&MID(A37,7,6+IF(LEN(A37)=18,2)),"#-00-00"),"身份证号码有误,请检查!")
(2) 根据身份证号判断员工的性别
答案:判断性别的条件为:当员工的身份证号是18位时,第17位数字是员工的性别,当是奇数时,是男性;如果是偶数,则是女性。当员工的身份证号是15位时,第15位数字是员工的性别,当是奇数时,是男性;如果是偶数,则是女性。如果员工的身份证号既不是18位,又不是15位时,请返回“身份证号码有误,请检查!”的提示信息。
发布评论