数据预处理——分类(线性可分SVM与决策树)

数据预处理——分类（线性可分SVM与决策树）

千古玦尘人物关系[toc]

倪大红八卦

## 第⼆次作业

#### 第⼀题

题⽬描述

1.如下表数据，前四列是天⽓情况（阴晴outlook，⽓温temperature，湿度humidity，风windy）；最后⼀列是类标签，表⽰根据天⽓情况是否出去玩。

(1)“信息熵”是度量样本集合纯度最常⽤的⼀种指标，假定当前样本集合D中第k类样本所占的⽐例为（k=1, 2, …, K），请问当什么条件下，D的信息熵Ent(D)取得最⼤，最⼤值为多少？

(2)根据表中训练数据，基于信息增益决策树应该选哪个属性作为第⼀个分类属性？

(3)对于含有连续型属性的样本数据，决策树和朴素贝叶斯分类能有哪些处理⽅法？

(4)在分类算法的评价指标中，recall和precision分别是什么含义？

(5)若⼀批数据中有3个属性特征，2个类标记，则最多可能有多少种不同的决策树？（不同决策树指同⼀个样本在两个两个决策下可能得到不同的类标记）

| ---- | ---- | ---- | ---- | ---- |

解答

(1)

(2)

姚笛前男友(3)

对于决策树来说，当含有连续型属性样本数据时，可以进⾏如下操作：

离散化，假如连续属性出现的n(假设出现了n中不同的值)，那么可排序为(a1, a2, ..., an)；这样就形成了n - 1个区间；对于每个区间来说，可以设

(a(i) + a(i + 1)) / 2来代表整个区间；从⽽将这些连续型的样本数据转化成了n - 1个划分点的数据集合，从⽽可以像计算离散数据那样去计算连续型数据样本。

早安图片

(4)

recall：召回率；recall = 预测为正样本且预测正确的样本数 / 真实的正样本数⽬；recall = TP / TP + FN

precision：准确率；precision = 预测为正样本且预测正确的样本数 / 预测为正样本的数⽬；TP / TP + FP

(5)

3个特征，2个类别；构造出的决策树⼀共有三层，第i层由第i个特征进⾏划分，这样决策树的种类树是P(3, 3) = 6种。

#### 第⼆题

题⽬描述

2. 已知正例点 x1 = (2，3)T，x2 = (3, 2)T，负例点 x3 = (1, 1)T

祝领导的新年祝福语(1) 试⽤ SVM 对其进⾏分类，求最⼤间隔分离超平⾯，并指出所有的⽀持向量。

(2) 现额外有⼀个点能被 SVM 正确分类且远离决策边界，如果将该点加⼊到训练集，SVM 的决策边界会受影响吗？为什么？

解答

关于感恩的演讲稿

(1)

答案

⽀持向量：(1, 1), (2, 3), (3, 2)；即三个⾥超平⾯最近的三个点。

推导