强大的随机森林分类器

机器学习中，随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别输出的类别的众树而定，它有着许多的有点，能很好地处理多分类问题。

基本算法

原始训练集为N，应用bootstrap法有放回的随机抽取k个新的自助样本集，并由构建k棵决策树。每次未被抽到的样本组成了k个袋外数据；
设有M个变量，在每一棵树的每个节点处随机抽取m(m<M)个变量，从m中选择一个最具有分辨能力的变量，变量的阈值通过检查每一个分类点确定。
每棵树最大限度的生长，不做任何修剪（普通的决策树算法需要剪枝）。
将生成的多棵分类树组成随机森林，用随机森林分类器对新的数据进行判断与分类，其分类结果按决策树分类器的投票决定。

优点

对于很多种资料，它可以产生高准确度的分类器。
它可以处理大量的输入变量。
可以在决定类别时，评估变量的重要性。
它包含一个好方法可以估计遗失的资料，并且，如果有很大一部分的资料遗失，仍可以维持准确度。
它提供一个实验方法，可以去侦测variable interactions。
对于不平衡的分类资料集来说，它可以平衡误差。
它计算各例中的近亲度，对于数据挖掘、侦测偏离者（outlier）和将资料视觉化非常有用。
它可以延伸应用在未标记的资料上，即使用非监督式聚类方法。也可以侦测偏离者和观看资料。
学习过程速度很快。
能够处理很高维度的数据，并且不用做特征选择。
创建随机森林的时候，对generlization error使用的是无偏估计。
容易扩展到并行方法

缺点

在某些噪音较大的分类或回归问题上会过拟合
对于有不同级别的属性的数据，级别划分较多的属性会对随机森林产生更大的影响，也就是说随机森林在这种数据上产生的属性权值是不可信的。

简要描述

随机森林，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵之间是没有关联的，在得到森林之后，当有一个新的输入样本进入的时候，让森林中的每一棵决策树分别进行判断，对其进行分类，最后预测为被选择的最多的那一类。
建立决策树的过程中，需要注意两点：采样与完全分裂。首先是两个随机采样的过程，random forest对输入的数据进行行列的采样；这里的采样，可能存在重复的样本。假设有N个样本，那么采样的样本也为N个，在训练的时候，每一棵树的输入样本都不是全部的样本，使得相对不容易出现over-fitting。然后进行列采样，从M个feature中选择m（m<M）个,之后就是对采样后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面所有的样本都指向同一个分类。一般很多的决策树算法都有一个很重要的步骤-剪枝，这里不需要这样做，因为之前的两个随机采样的过程保证了随机性，就算不减枝，也不会出现over-fitting。

需要注意的是： 每一棵决策树相对是较弱的，但是将多棵决策树结合起来就十分强大。可以这样比喻随机森林算法：每一棵决策树就是一个精通某一个窄领域的专家（从M个feature中选择m个让每一棵决策树进行学习），这样在随机森林中就有很多个精通不同领域的专家，对一个新的输入数据，可以从不同的角度去分析，最终由各方面的专家进行投票，得到最终结果。

分裂特征点的选择

信息增益
信息增益化
基尼指数

over-fitting的解决思路（不针对随机森林）

over-fitting(过拟合)指的是这样的一种学习现象：Ein很小，Eout却很大。是机器学习中比较常见的一种问题。

原因：

使用过于复杂的模型；
数据噪音；
有限的训练集。

解决思路：

假设过于复杂（excessive dvc）->建立相对简单的模型；
随机噪音 ->数据清洗，将标签错误的数据纠正或者删除；
数据规模太小 ->收集更多的数据，或“伪造”更多数据。

徐家凌的blog

徐家凌

强大的随机森林分类器

基本算法

优点

缺点

简要描述

分裂特征点的选择

over-fitting的解决思路（不针对随机森林）

相关工具箱