基本思想

相较于直接训练出一个强分类器,在训练集中找到一个弱分类器会简单很多。提升方法就是从弱学习算法出发,反复学习,得到一系列的弱分类器(基本分类器),然后组合这些弱分类器,构成一个强分类器。

我们需要解决的问题有两个:

  1. 每一轮如何改变训练数据的权值或概率分布?
  2. 如何将弱分类器合成一个强分类器?

AdaBoost针对这两个问题,做出以下解答:

  1. 假设现在有M轮的弱分类器选择。在每一轮训练中,提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值,使得那些没有得到正确分类的数据,由于其权值的加大而收到后一轮的弱分类器的更大关注。(注意,是样本的权值,不是分类器的权值)
  2. 使用加权多数表决的方法,加大分类误差率小的弱分类器的组合,使其在表决中起较大作用;减小分类误差率大的弱分类器的权值,使其在表决中起较小作用。

AdaBoost算法

假设有训练数据集$ T=\lbrace (x_1, y_1), …, (x_N, y_N)\rbrace ,标记有\lbrace{-1, +1}\rbrace$,我们将从该数据集中学到一系列的弱分类器,最后将它们组合成一个强分类器。

输入:训练数据集

输出:最终的强分类器G(x)G(x)

具体步骤:

  1. 先初始化训练数据的权值分布,假设训练数据集具有均匀的权值分布,也就是认为每个训练样本此时在本次的学习过程中作用是相同的。D1D_1表示此次的权值分布,w1iw_{1i}表示的是第一轮第i个样本点的权值。

    D1=(w11,..,w1N),w1i=1ND_1 = (w_{11}, .., w_{1N}), w_{1i} = \frac{1}{N}

  2. 循环M次操作,找到M个弱分类器:

    • 使用当前加权分布DmD_m学习基本分类器GmG_m,并确定一个阈值,使得分类误差率最小。经过化简得,分类误差率是被GmG_m误分类样本的权值之和。

      em=Gm(xi)yiwmie_m = \sum_{G_{m}(x_i) \neq y_i}w_{mi}

    • 此时已知本轮的GmG_m及使得分类误差率最小的阈值eme_m,就可以计算该分类器的系数了。可以发现,分类误差越大,系数就越小。说明这个分类器的效果比较差,给的权重就小一些。

      αm=12log1emem\alpha_m = \frac{1}{2} log \frac{1- e_m}{e_m}

    • 更新训练数据集的权值分布,Dm+1=(wm+1,1...,wm+1,N)D_{m+1} = (w_{m+1, 1}...,w_{m+1,N})

      wm+1,i=wmiZmexp(αmyiGm(xi)),i=1,2..Nw_{m+1, i} = \frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x_i)), i=1,2..N

      ZmZ_m是规范化因子,它使得Dm+1D_{m+1}成为一个概率分布。

      Zm=i=1Nwmiexp(αmyiGm(xi))Z_m = \sum_{i=1} ^N w_{mi}exp(-\alpha_my_iG_m(x_i))

    • 被基本分类器GmG_m误分类样本的权值将扩大,而被正确分类样本的权值将缩小。不改变所给的训练数据,而不断改变训练数据权值的分布。

  3. 构建基本分类器的线性组合:

    f(x)=m=1MαmGm(x)f(x) = \sum^M_{m=1}\alpha_mG_m(x)

    最终的分类器将加上sign函数

    G(x)=sign(f(x))G(x) = sign(f(x))

算法定理

定理8.1 训练误差界

AdaBoost算法最终分类器的训练误差界为

1Ni=1NI(G(xi)yi)=mZm\frac{1}{N}\sum^N_{i=1}I(G(x_i)\neq y_i) = \prod _m Z_m

该定理说明,可以在每一轮选取适当的GmG_m使得ZmZ_m最小,从而使得训练误差下降最快。

定理8.2 二分类问题的训练误差界

mZmexp(2m=1Mγm2)γm=12em\prod _m Z_m \leq exp(-2 \sum ^ M_{m=1}\gamma_m^2) \\ \gamma_m = \frac{1}{2} - e_m

这表明AdaBoost的训练误差是以指数速率下降的。

定理8.3 前向分布加法算法特例

AdaBoost算法是前向分布加法算法的特例,这是模型是由基本分类器组成的加法模型,损失函数是指数函数。

提升树

以决策树为基函数的提升方法称为提升树。基本分类器可以看作是由一个根结点直接连接两个叶节点的简单决策树,也就是所谓的决策树桩。

在提升树中

fm(x)=fm1(x)+T(x;Θm),m=1,2...Mf_m(x) = f_{m-1}(x) + T(x;\Theta_m), m=1,2...M

也就是说,第m步的模型是由m-1步的模型加上下一颗决策树组合而成的。

在计算平方损失函数的时候,

L(y,f(x))=(yf(x))2=(y(fm1(x)+T(x;Θm)))2=[rT(x;Θm]2L(y,f(x)) = (y-f(x))^2 = (y-(f_{m-1}(x) + T(x;\Theta_m)))^2 \\ = [r-T(x;\Theta_m]^2

这里r=yfm1(x)r = y - f_{m-1}(x),它是当前模型拟合数据的残差。因此对于回归问题而言,只需要在每次训练的时候,去拟合当前模型的残差即可。