⾏业⼤数据应⽤
LESSON1
1. 举例说明结构化数据、半结构化数据、⾮结构化数据的区别
1. 结构化数据指的是数据在⼀个记录⽂件⾥⾯以固定格式存在的数据。结构化数据可以通过固有键值获取相应信息,且数据的格式固
定,如RDBMS(关系型数据库) data;
2. 半结构化数据的格式不固定,如json,同⼀键值下存储的信息可能是数值型的,可能是⽂本型的,也可能是字典或者列表;
3. ⾮结构化数据是指信息没有⼀个预先定义好的数据模型或者没有以⼀个预先定义的⽅式来组织。包括所有格式的办公⽂档、⽂本、图
⽚、图像和⾳频/视频信息等等。
2. 请在⽣活中举出⼀个基于 "数字映像”探索或研究现实世界的实体或现象的例⼦,思考如何才能获得更准确的数字映像?吴卓羲女友
数字映像,专业术语叫数字孪⽣(Digital Twin),数字孪⽣是指充分利⽤物理模型、传感器、运⾏历史等数据,集成多学科、多尺度的仿真过程,它作为虚拟空间中对实体产品的镜像,**反映了相对应物理实体产品的全⽣命周期过程。**Digital twin最为重要的启发意义在于,它实现了现实物理系统向赛博空间数字化模型的反馈。
应⽤举例:
1. 美国国防部最早提出利⽤Digital Twin技术,⽤于航空航天飞⾏器的健康维护与保障。⾸先在数字空间建⽴真实飞机的模型,并通过传
夏奈尔女装
刘恺威 整容感器实现与飞机真实状态完全同步,这样每次飞⾏后,根据结构现有情况和过往载荷,及时分析评估是否需要维修,能否承受下次的任务载荷等。
2. 钢铁侠,托尼·史塔克在设计、改进和修理钢铁侠战⾐的时候,并不是在图纸或实物上进⾏操作,⽽是通过⼀个虚拟的影像映射来辅
助实现的。整个流程下来,⼀个可视化、智能化、数字化的设计场景清晰地呈现在⼯程设计者的眼前。
3. 什么是⼤数据的4V或5V特征,这⼀特征对⼤数据计算过程带来什么样的挑战?
IBM提出了⼤数据”5V”特点:
⼀、Volume:数据量⼤,包括采集、存储和计算的量都⾮常⼤。⼤数据的起始计量单位⾄少是P(1000个T)、E(100万个T)或Z(10亿个T)。
⼆、Variety:种类和来源多样化。包括结构化、半结构化和⾮结构化数据,具体表现为⽹络⽇志、⾳频、视频、图⽚、地理位置信息等等,多类型的数据对数据的处理能⼒提出了更⾼的要求。
三、Value:数据价值密度相对较低,或者说是浪⾥淘沙却⼜弥⾜珍贵。随着互联⽹以及物联⽹的⼴泛应⽤,信息感知⽆处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强⼤的机器算法来挖掘数据价值,是⼤数据时代最需要解决的问题
张桐个人资料四、Velocity:数据增长速度快,处理速度也快,时效性要求⾼。⽐如搜索引擎要求⼏分钟前的新闻能够被⽤户查询到,个性化推荐算法尽可能要求实时完成推荐。这是⼤数据区别于传统数据挖掘的显著特征。
五、Veracity:数据的准确性和可信赖度,即数据的质量。
4V指的是Volume、Variety、Value、Velocity。
4. 请分析相对于传统统计学⽽⾔,⼤数据在思维⽅式上的主要变化。
⼤数据和统计的区别主要有两个⽅⾯:其⼀是数据分析时不再进⾏抽样,⽽是采⽤population(n=all);其⼆是分析⽅法,侧重所有变量之间的相关性,⽽不再根据背景学科理论筛选变量,进⾏假设检验。
假设检验的结果只能不否认原假设,并不能得出完全⽀持的结论。但⼤数据的情况就不⼀样。对⼤数据进⾏分析时,我们并不需要对问题提出假设,⽽是通过算法出变量之间的相关度。(?看不懂)
5. 结合⼀个具体例⼦,说明数据分析的⼀般过程。
整个过程
1)提出问题
2)理解数据
3)数据清洗(占绝⼤部分时间,直接影响后⾯结果)
4)建⽴模型
5)数据可视化
6. 如何理解数据科学?
简单定义为:数据科学是从数据中提取有⽤知识的⼀系列技能和技术。
这些技能通常⽤德鲁·康威(Drew Conway)创造的维恩图(或它的变体)来表⽰:
三个圆圈分别代表三个不同的领域:编程领域(语⾔知识、语⾔库、设计模式、体系结构等);数学(代数、微积分等)和统计学领域;数据领域(特定领域的知识:医疗、⾦融、⼯业等)。
这些领域共同构成了定义中的技能和技术。它们包括获取数据、数据清理、数据分析、创建假设、算法、机器学习、优化、结果可视化等等。数据科学汇集了这些领域和技能,⽀持和改进了从原始数据中提取见解和知识的过程。
数据科学也可以定义为:研究应⽤数据处理和分析⽅⾯的进展,为我们提供解决⽅法和答案的领域。
LESSON2
1. ⼤数据的主要来源有⼏种?
1)交易数据。包括POS机数据、信⽤卡刷卡数据、电⼦商务数据、互联⽹点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理(CRM)系统数据、公司的⽣产数据、库存数据、订单数据、供应链数据等。
2)移动通信数据。能够上⽹的智能⼿机等移动设备越来越普遍。移动通信设备记录的数据量和数据的⽴体完整度,常常优于各家互联⽹公司掌握的数据。移动设备上的软件能够追踪和沟通⽆数事件,从运⽤软件储存的交易数据(如搜索产品的记录事件)到个⼈信息资料或状态报告事件(如地点变更即报告⼀个新的地理编码)等。
3)⼈为数据。⼈为数据包括电⼦邮件、⽂档、图⽚、⾳频、视频,以及通过、博客、推特、维基
、脸书、Linkedin等社交媒体产⽣的数据流。这些数据⼤多数为⾮结构性数据,需要⽤⽂本分析功能进⾏分析。
4)机器和传感器数据。来⾃感应器、量表和其他设施的数据、定位/GPS系统数据等。这包括功能设备会创建或⽣成的数据,例如智能温度控制器、智能电表、⼯⼚机器和连接互联⽹的家⽤电器的数据。来⾃新兴的物联⽹(Io T)的数据是机器和传感器所产⽣的数据的例⼦之⼀。来⾃物联⽹的数据可以⽤于构建分析模型,连续监测预测性⾏为(如当传感器值表⽰有问题时进⾏识别),提供规定的指令(如警⽰技术⼈员在真正出问题之前检查设备)等。
5)互联⽹上的“开放数据”来源,如政府机构,⾮营利组织和企业免费提供的数据。
2. ⼤数据集成的基本原理有哪些?
【背景】近⼏⼗年来,科学技术的迅猛发展和信息化的推进, 使得⼈类社会所积累的数据量已经超过了过去5 000年的总和,数据的采集、存储、处理和传播的数量也与⽇俱增。企业实现数据共享,可以使更多的⼈更充分地使⽤已有数据资源,减少资料收集、数据采集等重复劳动和相应费⽤。但是,在实施数据共享的过程当中,由于不同⽤户提供的数据可能来⾃不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚⾄会遇到数据格式不能转换或数据转换格式后丢失信息等棘⼿问题,严重阻碍了数据在各部门和各软件系统中的流动与共享。因此,如何对数据进⾏有效的集成管理已成为增
强企业商业竞争⼒的必然选择。
数据集成即将来⾃多个数据源的数据,如数据库、数据⽴⽅、普通⽂件等,结合在⼀起并形成⼀个统⼀数据集合,以便为数据处理⼯作的顺利完成提供完整的数据基础。(《⼤数据导论 》武志学)
3. 能否举例说明基于特征级别与基于语义的跨界数据集成⽅法的不同
4. 数据质量有⼏种维度?分别是什么?
主要有以下六个维度
1)完整性 Completeness:完整性⽤于度量哪些数据丢失了或者哪些数据不可⽤。
2)规范性 Conformity:规范性⽤于度量哪些数据未按统⼀格式存储。
3)⼀致性 Consistency:⼀致性⽤于度量哪些数据的值在信息含义上是冲突的。
4)准确性 Accuracy:准确性⽤于度量哪些数据和信息是不正确的,或者数据是超期的。
5)唯⼀性 Uniqueness:唯⼀性⽤于度量哪些数据是重复数据或者数据的哪些属性是重复的。
6)关联性 Integration:关联性⽤于度量哪些关联的数据缺失或者未建⽴索引。
2寸登记照尺寸5. 你能提出⼀个⾦融⾏业领域中的数据获取的应⽤案例吗?
银⾏的征信制度。 个⼈信⽤是指根据居民的家庭收⼊与资产、已发⽣的借贷与偿还、信⽤透⽀、发⽣不良信⽤时所受处罚与诉讼情况,对个⼈的信⽤等级进⾏评估并随时记录、存档,以便信⽤的供给⽅决定是否对其贷款和贷款多少的制度。
6. 想实现对⼀-个城城市空⽓污染的检测和预测,请思考下述问题
泰国特产有哪些(1) 需要哪些数据?
空⽓质量检测数据,包括地理位置,空⽓中有害⽓体含量
(2)这些数据来源于何处?
空⽓质量监测站和遥感卫星
(3)这些数据应当以何种⽅式采集?
传感器
(4)这些数据应当经过何种预处理?
数据清洗,数据集成,离散化和概念层次树
(5)如何集成这些数据以⽀持空⽓污染检测和预测的任务
7. 请分析数据预处理应当在数据集成之前还是之后进⾏,为什么?
之前。不同来源、格式、性质的数据只有在经过预处理之后,才能在逻辑上或物理上有机地集中。
8. 请分别举出在教育领域需要传统信息集成和跨界信息集成的实例
9. 请分析在交通⼤数据(如GPS采集的数据、打车软件中记录的数据)中可能遇到数据质量问题以及这些数据质量问题的检测⽅法和修复⽅法。
交通⼤数据中有关道路拥堵情况的采集主要依靠GPS和志愿者⼈⼯反馈,⽹络延迟将导致这些拥堵数据出现质量下降、可信度低的问题。
10. 假设需要从⼤众点评、美团、百度外卖3个数据源收集北京市餐馆的信息,请简述可能会⽤到的数据集成步骤。针对上述场景,列举数据中可能存在的数据质量问题。
1.与软件⼚商合作
作为企业,让⼚商正确理解你的业务需求对⾃⼰有益⽆害。因为只有这样,⼚商⾼管才能准确识别并集成所有你需要的数据点。
2.定义划分集成优先级
列出所有所需的数据集成任务,安排好部署计划。你的⽬标应该是在部署或正式投⼊使⽤阶段之前完成所有的数据集成活动,并界定增长数据的更新频率。除此之外,还要本着成本时间的节约,根据数据集成解决⽅案对其效益进⾏估测。
3.选择合适的集成界⾯
数据集成解决⽅案提供了两种数据界⾯:单向和双向。你需要知道应该应⽤哪种。
单向界⾯中,数据仅从A点传送到B点,没有返回或来回的运动。在我们的B2B平台上,供应商能够追踪到商店的货运信息。库存、付款以及销售信息都被发送到B2B平台上,但没有任何数据返回到这些数据源。
双向界⾯中,数据从⼀个应⽤传送到另⼀个应⽤,然后返回。在我们的平台上,如果部署了⼀个新的应⽤(如销售点,POS),产品数据就会从商品管理系统发送到POS上,然后销售数据⼜会从POS发回来。
4.选择⼀款正确的接⼝媒体,最简单的不⼀定最好
选择接⼝媒体⼀定要考虑未来需求和升级问题。数据集成有很多种⽅法–XML、逗号限定、电⼦表格、直接数据库连接等等;然⽽,最简单的⽅法不⼀定最适合你的企业,应该从多⽅⾯进⾏考虑,如可扩展性需求、数据容量和预算开销等。多年来,基于⽂本的集成⼀直很盛⾏,但是⽬前有很多企业都开始使⽤XML和直接数据库连接。
5.监控流程,设置多个检测点
对集成数据进⾏微调。对我们的B2B平台来说,数据集成在每天结束的时候都会进⾏,⽽只有增长的数据会被传送到服务器上。
Hypercity的检测点从源系统开始,分布于各个级别。⼀些涉及销售数量和零售价格的问题在这些检测点中提出。B2B平台的提取上载阶段构成了第⼆个检测点,问题的答案会在这⾥出现。⾃动化系统会检测输⼊数据的准确性。为了避免错误的出现,相关⽤户会收到提⽰邮件,以确认全天的数据是不是正确上载、是不是需要纠错措施。
6.保证数据的安全性
根据风险级别设置安全政策。如果你只是在内⽹中转换数据,也许不需要加密;但如果你需要将数据
对外传送,可能就要加以防范了。