⽆监督学习⽅法
学习资料:吴恩达机器学习课程
⼀. K-means算法
1. 算法思想
K-均值算法是⽆监督学习中聚类算法中的⼀个
截屏2020-01-28下午4.40.12
1. 初始化k个聚类中⼼
2. 循环:
将每个训练样本归类到最近的聚类中⼼组成⼀个个聚类
移动聚类中⼼到本⾝聚类的中⼼(平均值)
2. ⽬标优化
网传赵薇事件是真的吗截屏2020-01-28下午8.28.18
3. 随机初始化
K-均值的⼀个问题在于,它有可能会停留在⼀个局部最⼩值处,⽽这取决于初始化的情况。
解决⽅法:通常需要多次运⾏(50-1000次)K-均值算法,每⼀次都重新进⾏随机初始化,最后再⽐较多次运⾏K-均值的结果,选择代价函数最⼩的结果。
初始化时随机选择训练样本作为聚类中⼼
这种⽅法在较⼩的时候K较⼩时(2-10)还是可⾏的,但是K如果较⼤,就没有必要多次随机初始化了。
4. 选择聚类的数⽬K
根据“肘部法则”
根据聚类算法分类后的⽬的来决定数量
⼆. 主成分分析PCA
1. Dimensionality reduction降维
香油是什么油
主成分分析是降维的⼀种⽅法,将⾼纬数据压缩成较低维度数据。⽐如将两个维度的压缩成⼀个维度时:就是指将两个特征压缩成⼀个新的特征。
降纬的作⽤:
压缩数据,减少数据存储空间;
魏文彬李思思结婚照加快学习算法速度;
可视化数据:降到2D、3D可以可视化数据。
2. PCA步骤
⾸先进⾏数据预处理,均值标准化
X[i]−x平均值
s标准差/x max−x min
n维度X[i]降到k维度Z[i],PCA算法到k维度:能够最⼩化投影距离的平⽅
SVD 奇异值分解
截屏2020-01-28下午9.07.26
截屏2020-01-28下午9.04.12
3. 压缩重构
Processing math: 100%
压缩后的维度K重新变回之前的维度n
之前是Z=U T reduce∗X矩阵维度分析: k n * n1 = k*1
现在可以⽤X=U reduce∗Z变回之前的维度矩阵维度分析: n k * k1 = n*1
4. 选择K的⼤⼩
使得平均最⼩投影距离/平均距离原点的距离<=0.01,即保留99%⽅差,降维后的数据更接近原数据。
截屏2020-01-28下午9.31.51
截屏2020-01-28下午9.32.18
中华传统节日>猫的习性
仅仅通过SVD中的S就可以得到k的最优值
5. PCA的误⽤
虽然PCA可以降维,但是PCA不是避免过拟合的⽅法,过拟合最好还是⽤正则化。
在刚开始进⾏建⽴⼀个学习模型时,不要把PCA作为刚开始就做的步骤。⽽是要先⽤X[i],只有当确实需要⽤到时才去⽤PCA。三. 异常检测Anomaly detection
送给老师的话主要⽤在⾮监督学习,但是也可以⽤在监督学习⾥。
1. ⾼斯分布异常检测
参数估计:⼀些参数分布满⾜⾼斯分布的时候,可以求出这些参数的平均值和⽅差⽤来表⽰这些参数的分布情况
1. 选择需要进⾏异常检测的特征
2. 求出这些特征对应⾼斯分布的平均值和⽅差
3. 所有这些特征的⾼斯分布累积如果很⼩(⼩于⼀个阈值),就判定为异常
截屏2020-01-29上午8.35.58
2. Anomaly detection vs supervised learning
异常检测⼤多⽤于⾮监督学习。因为⽆监督学习中特征没有label,所以可以根据这些特征的分布情况来建⽴⼀个模型,当有新的样本进来时检测样本的这些特征是否符合模型,不符合则代表异常
异常检测也可以⽤于监督学习。这时候异常检测与监督学习算法类似,异常样本有对应的label=0,正常样本对应的label=1。两种算法都是建⽴模型来区分异常和正常样本。
两种算法的应⽤情况:
当异常样本很少时,⽤异常检测算法:对⼤量正常样本建⽴模型,测试样本符合模型则表⽰正常,不符合则表⽰异常。
当异常样本数量较多时,则可以⽤监督学习算法:同时对两种样本建⽴分类模型。
3. 如何选择特征
对于⼀个样本(⽆论正常还是异常),有许多特征可以选择来判断是否⼀个样本是异常。例如:对于电
脑是否损坏,有⼤量正常电脑和很少的异常电脑样本。我们可以选择的特征有CPU load,network traffc等。如下图:
截屏2020-01-29上午9.17.16
那么如何选择合适的特征:
1. 选择的特征应该符合⾼斯分布,如果不符合对特征进⾏⼀些处理转换使其⼤致符合⾼斯分布。(⽐如对于特征:x可以⽤x∗0.5 ,log(x)
试⼀试)
2. 根据误差分析建⽴设计特征,⽐如x1/x2、x21/x3
4. 多元⾼斯分布
截屏2020-01-29上午9.36.18
截屏2020-01-29上午9.38.15
x个特征的⾼斯分布直接累积有个缺点是不能反映2个特征之间相互关系的影响。
多元⾼斯分布降特征合在⼀起建⽴⼀个⾼斯分布模型
5. Original model vs Multivariate Gaussian
截屏2020-01-29上午9.44.56
原始⾼斯分布和多元⾼斯分布最⼤的区别是是否捕捉相关性的特征
两种分布在可视化图中的区别是:原始⾼斯分布得到的椭圆是轴对齐的(轴与x轴或y轴平⾏),⽽多元⾼斯分布椭圆轴可以是任意⽅向。
所以原始⾼斯分布是多元的⼀种特殊情况。
多元⾼斯分布优点:可以⾃动寻特征间的关系,其实原始⾼斯分布中⼿动设计特征就是在特征之间的关系
多元⾼斯分布缺点:需要训练样本远⼤于特征值,⽽且计算要求更⾼。反之原始⾼斯分布不需要