算法原理
决策树的构造是一个递归的过程,有三种情形会导致递归返回:
算法的基本流程如下图所示:
信息熵 information entropy:度量样本集合纯度最常用的一种指标。假定当前样本集合D中第k类样本所占比例为pk,则样本集合D的信息熵定义为:
当D中只有一个类别时信息熵最小为0,当D中各个取值的概率均等时信息熵最大为log|D|,|D|表示D可能取值的个数。从
假定通过属性划分样本集D,产生了V个分支节点,v表示其中第v个分支节点,易知:分支节点包含的样本数越多,表示该分支节点的影响力越大。故可以计算出划分后相比原始数据集D获得的 信息增益(information gain)。
信息增益越大,表示使用该属性划分样本集D的效果越好,因此ID3算法在递归过程中,每次选择最大信息增益的属性作为当前的划分属性。
ID3算法存在一个问题,就是偏向于取值数目较多的属性,例如:如果存在一个唯一标识,这样样本集D将会被划分为|D|个分支,每个分支只有一个样本,这样划分后的信息熵为零,纯度达到最大,然而,这样的决策树显然不具有泛化能力,无法对新样本进行有效预测。
C4.5决策树使用了 增益率(gain ratio) 来选择划分属性,来避免这个问题带来的困扰。C4.5决策树采用一种启发式的方法:首先使用ID3算法计算出信息增益高于平均水平的候选属性,接着C4.5计算这些候选属性的增益率,选择增益率最高的。增益率定义为:
CART决策树使用 基尼指数(Gini index) 来选择划分属性,基尼指数反映的是从样本集D中随机抽取两个样本,其类别标记不一致的概率。因此Gini(D)越小越好,基尼指数定义如下:
进而,使用属性α划分后的基尼指数为:
CART决策树的实际构造算法如下:
从决策树的构造流程中我们可以直观地看出:不管怎么样的训练集,决策树总是能很好地将各个类别分离开来,这时就会遇到之前提到过的问题:过拟合(overfitting),即太依赖于训练样本。
剪枝(pruning) 是决策树算法对付过拟合的主要手段,剪枝的策略有两种如下:
预剪枝处理使得决策树的很多分支被剪掉,因此大大降低了训练时间开销,同时降低了过拟合的风险,但另一方面由于剪枝同时剪掉了当前节点后续子节点的分支,因此预剪枝“贪心”的本质阻止了分支的展开,在一定程度上带来了欠拟合的风险。而后剪枝则通常保留了更多的分支,因此采用后剪枝策略的决策树性能往往优于预剪枝,但其自底向上遍历了所有节点,并计算性能,训练时间开销相比预剪枝大大提升。
对于连续值的属性,若每个取值作为一个分支则显得不可行,因此需要进行离散化处理,常用的方法为二分法,基本思想为:给定样本集D与连续属性α,二分法试图找到一个划分点t将样本集D在属性α上分为 ≤t 与>t。
现实中常会遇到不完整的样本,即某些属性值缺失。有时若简单采取剔除,则会造成大量的信息浪费,因此在属性值缺失的情况下需要解决两个问题:(1)如何选择划分属性。(2)给定划分属性,若某样本在该属性上缺失值,如何划分到具体的分支上。假定为样本集中的每一个样本都赋予一个权重,根节点中的权重初始化为1,则定义:
对于(1):通过在样本集D中选取在属性α上没有缺失值的样本子集,计算在该样本子集上的信息增益,最终的信息增益等于该样本子集划分后信息增益乘以样本子集占样本集的比重。即:
对于(2):若该样本子集在属性α上的值缺失,则将该样本以不同的权重(即每个分支所含样本比例)划入到所有分支节点中。该样本在分支节点中的权重变为: