决策树
决策树分类
决策树的概念
是一种类似于流程图的树结构
其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出
每个树叶结点存放一个类标签
实例
张(被介绍):多大年纪了?
王(介绍):25。
张:长的帅不帅?
王:挺帅的。
张:收入高不?
王:不算很高,中等情况。
张:是公务员不?
王:是,在税务局上班呢。
张:那好,我去见见。
决策树分类ID3方法
熵(Entropy)
信息熵
实例
Race | Income | Child | Insurance |
---|---|---|---|
black | high | no | yes |
white | high | yes | yes |
white | low | yes | yes |
white | low | yes | yes |
black | low | no | no |
black | low | no | no |
black | low | no | no |
white | low | no | no |
计算Race属性
计算Income属性
计算Child属性
选择Child属性后
计算Income属性
选择Income属性
ID3算法缺点
- 倾向于选择更多不同属性值的特征属性
- 适合于处理离散属性,连续属性需要离散化