30个学习⼤数据挖掘的重要知识点!建议收藏
下⾯是⼀些关于⼤数据挖掘的知识点,今天和⼤家⼀起来学习⼀下。
1. 数据、信息和知识是⼴义数据表现的不同形式。
2. 主要知识模式类型有:⼴义知识,关联知识,类知识,预测型知识,特异型知识
3. web挖掘研究的主要流派有:Web结构挖掘、Web使⽤挖掘、Web内容挖掘
4. ⼀般地说,KDD是⼀个多步骤的处理过程,⼀般分为问题定义、数据抽取、数据预处理,数据挖掘以及模式评估等基本阶段。
5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以⽤户为中⼼的处理结构模型,联机KDD模型,⽀持多数据源多知识模式的KDD处理模型。
6. 粗略地说,知识发现软件或⼯具的发展经历了独⽴的知识发现软件、横向的知识发现⼯具集和纵向的知识发现解决⽅案三个主要阶段,其中后⾯两种反映了⽬前知识发现软件的两个主要发展⽅向。
7. 决策树分类模型的建⽴通常分为两个步骤:决策树⽣成,决策树修剪。
8. 从使⽤的主要技术上看,可以把分类⽅法归结为四种类型:
基于距离的分类⽅法
决策树分类⽅法
王宝强拍的电视剧
贝叶斯分类⽅法
规则归纳⽅法
9. 关联规则挖掘问题可以划分成两个⼦问题:
发现频繁项⽬集:通过⽤户给定Minsupport ,寻所有频繁项⽬集或者最⼤频繁项⽬集。
⽣成关联规则:通过⽤户给定Minconfidence ,在频繁项⽬集中,寻关联规则。
10. 数据挖掘是相关学科充分发展的基础上被提出和发展的,主要的相关技术:
数据库等信息技术的发展
空调内机滴水统计学深⼊应⽤
⼈⼯智能技术的研究和应⽤
11. 衡量关联规则挖掘结果的有效性,应该从多种综合⾓度来考虑:
准确性:挖掘出的规则必须反映数据的实际情况。
实⽤性:挖掘出的规则必须是简洁可⽤的。
新颖性:挖掘出的关联规则可以为⽤户提供新的有价值信息。
12. 约束的常见类型有:
单调性约束;
反单调性约束;
杜旭东可转变的约束;
简洁性约束.
13. 根据规则中涉及到的层次,多层次关联规则可以分为:
同层关联规则:如果⼀个关联规则对应的项⽬是同⼀个粒度层次,那么它是同层关联规则。
层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规则。
14. 按照聚类分析算法的主要思路,聚类⽅法可以被归纳为如下⼏种。
划分法:基于⼀定标准构建数据的划分。
属于该类的聚类⽅法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。层次法:对给定数据对象集合进⾏层次的分解。
密度法:基于数据对象的相连密度评价。
⽹格法:将数据空间划分成为有限个单元(Cell)的⽹格结构,基于⽹格结构进⾏聚类。
模型法:给每⼀个簇假定⼀个模型,然后去寻能够很好的满⾜这个模型的数据集。
15. 类间距离的度量主要有:
最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。
最长距离法:定义两个类中最远的两个元素间的距离为类间距离。
中⼼法:定义两类的两个中⼼间的距离为类间距离。
类平均法:它计算两个类中任意两个元素间的距离,并且综合他们为类间距离:离差平⽅和。杨紫璐微博
16. 层次聚类⽅法具体可分为:
凝聚的层次聚类:⼀种⾃底向上的策略,⾸先将每个对象作为⼀个簇,然后合并这些原⼦簇为越来越⼤的簇,直到某个终结条件被满⾜。
分裂的层次聚类:采⽤⾃顶向下的策略,它⾸先将所有对象置于⼀个簇中,然后逐渐细分为越来越⼩的簇,直到达到了某个终结条件。
层次凝聚的代表是AGNES算法。层次分裂的代表是DIANA算法。
17. ⽂本挖掘(TD)的⽅式和⽬标是多种多样的,基本层次有:
关键词检索:最简单的⽅式,它和传统的搜索技术类似。
挖掘项⽬关联:聚焦在页⾯的信息(包括关键词)之间的关联信息挖掘上。
信息分类和聚类:利⽤数据挖掘的分类和聚类技术实现页⾯的分类,将页⾯在⼀个更到层次上进⾏抽
象和整理。
⾃然语⾔处理:揭⽰⾃然语⾔处理技术中的语义,实现Web内容的更精确处理。
18. 在web访问挖掘中常⽤的技术:
路径分析:路径分析最常⽤的应⽤是⽤于判定在⼀个Web站点中最频繁访问的路径,这样的知识对于⼀个电⼦商务⽹站或者信息安全评估是⾮常重要的。
关联规则发现:使⽤关联规则发现⽅法可以从Web访问事务集中,到⼀般性的关联知识。
男生名字大全序列模式发现:在时间戳有序的事务集中,序列模式的发现就是指到那些如“⼀些项跟随另⼀个项”这样的内部事务模式。
分类:发现分类规则可以给出识别⼀个特殊体的公共属性的描述。这种描述可以⽤于分类新的项。
聚类:可以从Web Usage数据中聚集出具有相似特性的那些客户。在Web事务⽇志中,聚类顾客信息或数据项,就能够便于开发和执⾏未来的市场战略。
19. 根据功能和侧重点不同,数据挖掘语⾔可以分为三种类型:
数据挖掘查询语⾔:希望以⼀种像SQL这样的数据库查询语⾔完成数据挖掘的任务。
数据挖掘建模语⾔:对数据挖掘模型进⾏描述和定义的语⾔,设计⼀种标准的数据挖掘建模语⾔,使得数据挖掘系统在模型定义和描述⽅⾯有标准可以遵循。
通⽤数据挖掘语⾔:通⽤数据挖掘语⾔合并了上述两种语⾔的特点,既具有定义模型的功能,⼜能作为查询语⾔与数据挖掘系统通信,进⾏交互式挖掘。通⽤数据挖掘语⾔标准化是⽬前解决数据挖掘⾏业出现问题的颇具吸引⼒的研究⽅向。
20. 规则归纳有四种策略:减法、加法,先加后减、先减后加策略。
减法策略:以具体例⼦为出发点,对例⼦进⾏推⼴或泛化,推⼴即减除条件(属性值)或减除合取项(为了⽅便,我们不考虑增加析取项的推⼴),使推⼴后的例⼦或规则不覆盖任何反例。
加法策略:起始假设规则的条件部分为空(永真规则),如果该规则覆盖了反例,则不停地向规则增加条件或合取项,直到该规则不再覆盖反例。
先加后减策略:由于属性间存在相关性,因此可能某个条件的加⼊会导致前⾯加⼊的条件没什么作⽤,因此需要减除前⾯的条件。
先减后加策略:道理同先加后减,也是为了处理属性间的相关性。
21. 数据挖掘定义有⼴义和狭义之分。
从⼴义的观点,数据挖掘是从⼤型数据集(可能是不完全的、有噪声的、不确定性的、各种存储形式的)中,挖掘隐含在其中的、⼈们事先不知道的、对决策有⽤的知识的过程。
从这种狭义的观点上,我们可以定义数据挖掘是从特定形式的数据集中提炼知识的过程。
22. web挖掘的含义:针对包括Web页⾯内容、页⾯之间的结构、⽤户访问信息、电⼦商务信息等在内的各种Web数据,应⽤数据挖掘⽅法以帮助⼈们从因特⽹中提取知识,为访问者、站点经营者以及包括电⼦商务在内的基于因特⽹的商务活动提供决策⽀持。
23. K-近邻分类算法(K Nearest Neighbors,简称KNN)的定义:通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K 个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。
24. K-means算法的性能分析:
主要优点:是解决聚类问题的⼀种经典算法,简单、快速;对处理⼤数据集,该算法是相对可伸缩和⾼效率的;当结果簇是密集的,它的效果较好。
主要缺点:在簇的平均值被定义的情况下才能使⽤,可能不适⽤于某些应⽤;必须事先给出k(要⽣成的簇的数⽬),⽽且对初值敏感,对于不同的初始值,可能会导致不同结果;不适合于发现⾮凸⾯形状的簇或者⼤⼩差别很⼤的簇。⽽且,它对于“躁声”和孤⽴点数据是敏感的。
25. ID3算法的性能分析:
ID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的⼀个完整空间。所以ID3算法避免了搜索不完整假设空间的⼀个主要风险:假设空间可能不包含⽬标函数。
ID3算法在搜索的每⼀步都使⽤当前的所有训练样例,⼤⼤降低了对个别训练样例错误的敏感性。因此,通过修改终⽌准则,可以容易地扩展到处理含有噪声的训练数据。
ID3算法在搜索过程中不进⾏回溯。所以,它易受⽆回溯的爬⼭搜索中的常见风险影响:收敛到局部最优⽽不是全局最优。
26. Apriori算法有两个致命的性能瓶颈:
多次扫描事务数据库,需要很⼤的I/O负载
对每次k循环,侯选集Ck中的每个元素都必须通过扫描数据库⼀次来验证其是否加⼊Lk。假如有⼀个频繁⼤项⽬集包含10个项的话,那么就⾄少需要扫描事务数据库10遍。
杨钰莹老公是谁
可能产⽣庞⼤的侯选集
由Lk-1产⽣k-侯选集Ck是指数增长的,例如104个1-频繁项⽬集就有可能产⽣接近107个元素的2-侯选集。如此⼤的侯选集对时间和主存空间都是⼀种挑战。a基于数据分割的⽅法:基本原理是“在⼀个划分中的⽀持度⼩于最⼩⽀持度的k-项集不可能是全局频繁的”。
27. 改善Apriori算法适应性和效率的主要的改进⽅法有:
基于数据分割(Partition)的⽅法:基本原理是“在⼀个划分中的⽀持度⼩于最⼩⽀持度的k-项集不可能是全局频繁的”。
基于散列的⽅法:基本原理是“在⼀个hash桶内⽀持度⼩于最⼩⽀持度的k-项集不可能是全局频繁的”。
基于采样的⽅法:基本原理是“通过采样技术,评估被采样的⼦集中,并依次来估计k-项集的全局频度”。
其他:如,动态删除没有⽤的事务:“不包含任何Lk的事务对未来的扫描结果不会产⽣影响,因⽽可以删除”。
28. ⾯向Web的数据挖掘⽐⾯向数据库和数据仓库的数据挖掘要复杂得多:
异构数据源环境:Web⽹站上的信息是异构: 每个站点的信息和组织都不⼀样;存在⼤量的⽆结构的⽂本信息、复杂的多媒体信息;站点使⽤和安全性、私密性要求各异等等。
数据的是复杂性:有些是⽆结构的(如Web页),通常都是⽤长的句⼦或短语来表达⽂档类信息;有些可能是半结构的(如Email,HTML页)。当然有些具有很好的结构(如电⼦表格)。揭开这些复合对象蕴涵的⼀般性描述特征成为数据挖掘的不可推卸的责任。
动态变化的应⽤环境: