数据预处理——分类(线性可分SVM与决策树
千古玦尘人物关系[toc]
倪大红八卦
## 第⼆次作业
#### 第⼀题
<b>题⽬描述</b><br>
1.如下表数据,前四列是天⽓情况(阴晴outlook,⽓温temperature,湿度humidity,风windy);最后⼀列是类标签,表⽰根据天⽓情况是否出去玩。
(1)“信息熵”是度量样本集合纯度最常⽤的⼀种指标,假定当前样本集合D中第k类样本所占的⽐例为(k=1, 2, …, K),请问当什么条件下,D的信息熵Ent(D)取得最⼤,最⼤值为多少?
(2)根据表中训练数据,基于信息增益决策树应该选哪个属性作为第⼀个分类属性?
(3)对于含有连续型属性的样本数据,决策树和朴素贝叶斯分类能有哪些处理⽅法?
(4)在分类算法的评价指标中,recall和precision分别是什么含义?
(5)若⼀批数据中有3个属性特征,2个类标记,则最多可能有多少种不同的决策树?(不同决策树指同⼀个样本在两个两个决策下可能得到不同的类标记)
|  outlook  | temperature  | humidity  | windy  | play  |
|  ----  | ----  | ----  | ----  | ----  |
| sunny  | hot | high | FALSE | no |
| sunny  | hot | high | TRUE | no |
| rainy  | cool | normall | TRUE | no |
| sunny  | mild | high | FALSE | no |
| sunny  | cool | normal | FALSE | yes |
| rainy  | mild | normal | FALSE | yes |
| overcast  | cool | normal | TRUE | yes |
| rainy  | cool | normal | FALSE | yes |
| rainy  | mild | high | FALSE | yes |
| overcast  | hot | high | FALSE | yes |
<b>解答</b><br>
<b>(1)</b>
<b>(2)</b>
姚笛前男友<b>(3)</b><br>
对于决策树来说,当含有连续型属性样本数据时,可以进⾏如下操作:
离散化,假如连续属性出现的n(假设出现了n中不同的值),那么可排序为(a1, a2, ..., an);这样就形成了n - 1个区间;对于每个区间来说,可以设
(a(i) + a(i + 1)) / 2来代表整个区间;从⽽将这些连续型的样本数据转化成了n - 1个划分点的数据集合,从⽽可以像计算离散数据那样去计算连续型数据样本。
早安图片
<b>(4)</b><br>
recall:召回率;recall = 预测为正样本且预测正确的样本数 / 真实的正样本数⽬;recall = TP / TP + FN<br>
precision:准确率;precision = 预测为正样本且预测正确的样本数 / 预测为正样本的数⽬;TP / TP + FP<br>
<b>(5)</b><br>
3个特征,2个类别;构造出的决策树⼀共有三层,第i层由第i个特征进⾏划分,这样决策树的种类树是P(3, 3) = 6种。<br>
#### 第⼆题
<b>题⽬描述</b><br>
2. 已知正例点 x1 = (2,3)T,x2 = (3, 2)T,负例点 x3 = (1, 1)T
祝领导的新年祝福语(1) 试⽤ SVM 对其进⾏分类,求最⼤间隔分离超平⾯,并指出所有的⽀持向量。<br>
(2) 现额外有⼀个点能被 SVM 正确分类且远离决策边界,如果将该点加⼊到训练集,SVM 的决策边界会受影响吗?为什么?<br>
<b>解答</b><br>
<!-- <b>问题</b> -->
<!-- SVC(kernel = 'linear') or  LinearSVC  的区别? -->关于感恩的演讲稿
<b>(1)</b><br>
<b>答案</b><br>
⽀持向量:(1, 1), (2, 3), (3, 2);即三个⾥超平⾯最近的三个点。
<b>推导</b>