机器学习-提升方法(集成学习)
时间:2023-12-04 00:07:02
集成学习
???通过改变训练样本的权重,学习多个分类器,并将这些分类器线性组合,提高分类性能。
1 Adaboost算法
???输入:训练数据集 T T T
???输出:最终分类器 G ( x ) G(x) G(x)
???(1)初始化训练数据的权值分布
D 1 ( w 11 , w 12 , . . . , w 1 N ) , w 1 i = 1 N D_1(w_{11},w_{12},...,w_{1N}),w1i=\frac{1}{N} D1(w11,w12,...,w1N),w1i=N1
(2)对 m = 1 , 2 , . . . , M m=1,2,...,M m=1,2,...,M
(a)使用具有权值分布的 D m D_m Dm训练数据集学习,得到基本分类器
G m ( x ) : X → { − 1 , + 1 } G_m(x):X \rightarrow\left\{-1,+1\right\} Gm(x):X→{
−1,+1}
&ensp(b)计算在 G m ( x ) G_m(x) Gm(x)训练数据集上的分类误差率
e m = ∑ i = 1 N P ( G m ( x ) ≠ y i ) = ∑ i = 1 N w m i I ( G m ( x ) ≠ y i ) e_m=\sum_{i=1}^N P(G_m(x) \neq y_i)=\sum_{i=1}^N w_{mi}I(G_m(x) \neq y_i) em=i=1∑NP(Gm(x)=yi)=i=1∑NwmiI(Gm(x)=yi)
©计算 G m ( x ) G_m(x) Gm(x)的系数
α m = 1 2 l o g 1 − e m e m \alpha_m=\frac{1}{2}log\frac{1-e_m}{e_m} αm=21logem1−em
(d)更新训练数据集的权值分布
D m + 1 = ( w m + 1 , 1 , . . . , w m + 1 , N ) D_{m+1}=(w_{m+1,1},...,w_{m+1,N}) Dm+1=(wm+1,1,...,wm+1,N)
w m + 1 , i = w m i Z m e x p ( − α m y i G m ( x ) ) , Z m 为 规 范 因 子 w_{m+1,i}=\frac{w_{mi}}{Z_m}exp(-\alpha_my_iG_m(x)),Z_m为规范因子 wm+1,i=Zmwmiexp(−αmyiGm(x)),Zm为规范因子
Z m = ∑ i = 1 N w m i e x p ( − α m y i G m ( x i ) ) Z_m={\sum_{i=1}^N}w_{mi}exp(-\alpha_my_iG_m(x_i)) Zm=i=1∑Nwmiexp(−αmyiGm(xi))
(3)构建基本分类器的线性组合
f ( x ) = ∑ m = 1 M α m G m ( x ) f(x)=\sum_{m=1}^M \alpha_mG_m(x) f(x)=m=1∑MαmGm(x)
G ( x ) = s i g n ( f ( x ) ) = s i g n ( ∑ i = 1 M α m G m ( x ) ) G(x)=sign(f(x))=sign(\sum_{i=1}^M \alpha_mG_m(x)) G(x)=sign(f(x))=sign(i=1∑MαmGm(x))
1.2 Adaoost算法的训练误差分析
Adaboost算法的误差界
1 N ∑ i = 1 N I ( G m ( x ) ≠ y i ) ≤ 1 N ∑ i e x p ( − y i f ( x i ) ) = Z m \frac1N \sum_{i=1}^N I(G_m(x) \neq y_i) \leq \frac 1N \sum_i exp(-y_if(x_i))=Z_m N1i=1∑NI(Gm(x)=yi)≤N1i∑exp(−yif(xi))=Zm
二类分类问题Adaboost的训练误差界
∏ m = 1 M Z m = ∏ m = 1 N [ 2 e m ( 1 − e m ) ] = ∏ m = 1 M 1 = 4 γ m 2 ≤ e x p ( − 1 ∑ m = 1 M γ m 2 ) γ m = 1 2 − e m \prod_{m=1}^M Z_m=\prod_{m=1}^N[2\sqrt{e_m(1-e_m)}] \\=\prod_{m=1}^M \sqrt{1=4\gamma_m^2} \leq exp(-1\sum_{m=1}^M\gamma_m^2) \\\gamma_m=\frac12 -e_m m=1∏MZm=m=1∏N[2em(1−em)]=m=1∏元器件数据手册、IC替代型号,打造电子元器件IC百科大全!