首页

如何理解今年发表在JMLR上随机森林算法SPORF？第1页

1

zhenlingcn 网友的相关建议:

实至名归的JMLR论文！倘若这篇文章的结论能够未来在机器学习领域得到广泛验证，这篇文章将有很大的可能成为下一代随机森林算法的基准实现方式。

算法原理

基本原理

SPORF的算法原理非常简单，对于一个大小为，特征数为的训练数据矩阵。SPORF算法将随机生成一个包含的大小为的矩阵。最终，两个矩阵相乘，就可以得到一个的训练数据矩阵。将这个矩阵输入到传统决策树算法中，即实现了SPORF算法。

其中，SPORF的随机映射矩阵中的非零元素的数量由一个稀疏度参数控制。其中，代表矩阵大小，代表稀疏度。对于非零元素，SPORF随机选择进行填充。

与随机森林的关系

SPORF是随机森林的进阶版本，在随机森林的实现中，原始的个特征会通过随机挑选的方式，保留个特征，作为决策树构建所使用的特征。因此，随机森林是SPORF的一个特例，即当SPORF的映射矩阵的列元素，每一列仅有一个元素为1时，SPORF算法会退化为随机森林。

分裂效果实验

下图展示了Trunk这个数据集上SPORF和RF算法的分裂情况。图(A)展示了SPORF收益最高的10个分裂方案，而图(B)展示了RF收益最高的10个分裂方案。从图(C)和图(D)可以看出，SPORF这种考虑多个变量的分裂方案具有更高的Gini Importance收益，且具有更小的Bayes Error。

相关实验

SPORF与随机森林对比

为了验证SPORF相比随机森林算法（RF）优势，论文作者选取了"consistency"这个人工数据集进行了初步验证。"consistency"这个数据集的一个特点是随机森林在该数据集上的理论误差下界为，即随机森林的误差不会小于下面虚线所示的位置。

而从下面的实验结果可以看出，SPORF可以取得比随机森林理论下界更好的拟合效果。

特性验证

在验证了SPORF相比随机森林的优势之后，作者还在sparse parity和orthant这两个数据集上面进行了探索试验。

首先，作者尝试了sparse parity数据集，该数据集的特点为每个单一维度都无法根据信息增益进行划分，因此正负样本从单一维度上来看是完全无法区分的，这样的数据特性就导致随机森林算法难以在该数据集上有良好的表现。从实验结果来看，尽管随机森林和CCF在该数据集上难以取得令人满意的效果，SPORF在该数据集上效果非常好。

此外，作者还尝试了orthant数据集，相比sparse parity数据集，随机森林可以在该数据集上有良好的表现，但是一些基于倾斜决策树的集成学习算法，例如CCF和F-RC在该数据集上表现较差。相比之下，SPORF的拟合误差则可以和RF保持在同一水平。从而，作者利用上述两个实验证明了SPORF可以适应多种多样的训练场景，具有非常强的拟合能力。

SPORF与F-RC对比

F-RC算法是当前最类似于SPORF算法的随机森林算法，该算法的核心思想也是将一个的训练数据矩阵映射为一个的训练数据矩阵。SPORF和F-RC最大的区别在于SPORF算法的稀疏度是控制整个映射矩阵的稀疏度，而F-RC的稀疏度则是控制每一列的稀疏度。也就是说，F-RC要求每一列新特征需要基于相同数量的原始特征进行构建。

下图展示了F-RC和SPORF算法的区别，从图中可以看出，在不同稀疏度的情况下，SPORF远优于F-RC算法。

预测性能

下图展示了五种分类器的预测性能，论文作者使用Cohen’s kappa分数作为分类效果衡量指标，在图(A)中展示了不同分类器与随机森林的相对效果，在图(B)中展示了不同分类器的相对排名统计结果。从两个图中可以看出，无论是在连续型数据集上还是离散型数据集上，SPORF算法都具有良好的表现。

参数分析

下图展示了SPORF引入的两个超参数，和在不同数值情况下的预测性能排名。从实验结果来看，当新特征数量为原始特征数量的平方，即时，效果最好。但是，鉴于这种情况下会消耗过多的资源，因此SPORF推荐的默认参数为。至于稀疏度，SPORF推荐的默认参数为，即每一列新映射特征平均由三个原始特征组成。

噪声添加

下图展示了添加10-1000维噪声作为训练数据之后，不同学习算法的Cohen’s kappa分数。可以看到在添加了噪声维度之后，SPORF依然保持着最佳的预测性能。

训练时间

下图展示了SPORF算法不同参数在20维sparse parity数据集上的训练时间，从图中可以看出，随着训练数据量的增加，SPORF算法会比RF算法相对较慢。但是值得注意的是，图(A)的SPORF训练时间是在最优SPORF参数情况下统计得到的。而从图(B)中可以看出，随着映射维度的增加，SPORF的训练时间也会增加。但是值得注意的是，在相同映射维度情况下，SPORF的训练时间和随机森林的训练时间相差无几，而从图(C)中可以看出此时SPORF的误差明显小于随机森林。通过上述试验，作者向我们证明了SPORF实际上是一种比随机森林更高效的算法。

下图展示了SPORF算法的训练时间，从训练时间来看，SPORF算法具有良好的训练时间和并行加速效果。

预测时间

下图展示了SPORF算法的预测时间，从预测时间来看，在使用Pack决策树压缩算法增强之后的SPORF-PACK算法具有最短的预测时间。

如何理解今年发表在JMLR上随机森林算法SPORF？的其他答案点击这里

1

相关话题

  有哪些解决完之后让你拍案叫绝的算法问题？
  基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度？
  研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题？
  GAN（对抗生成网络）可以被用于哪些（商业或潜在商业）实际问题？
  为什么图形学的会议siggraph的论文代码很少会开源？好像视觉如CVPR、ICCV开源的更多一些。
  如何评价第一局比赛 AlphaGo 战胜李世石？
  如何评价深度学习之父Hinton发布的Capsule论文？
  Dirichlet Processes 是一个什么样的随机过程？
  机器学习门下，有哪些在工业界应用较多，前景较好的小方向？
  如何评价MXNet发布的1.0版本？

前一个讨论

为什么身边的人都想学计算机，计算机真的有那么好吗？

下一个讨论

如何判断猫咪怀孕，这只猫咪是否怀孕？

相关的话题

  如何用简单易懂的例子解释隐马尔可夫模型？
  现在的人工智能是否走上了数学的极端？
  新手如何实现个简单AutoML框架。有参考的github开源项目介绍吗？
  让人工智能去下路边街头的象棋残局会赢吗？
  迁移学习与fine-tuning有什么区别？
  如何用机器学习判断《溪岸图》是否董源真迹？
  人脑有海量的神经元（参数），那么人脑有没有「过拟合」行为？
  为什么nn的较大问题是会陷入局部最优时，不选用凸函数作为激活函数？
  有哪些深度学习效果不如传统方法的经典案例？
  在与 AlphaGo（包括 Master）的对局中是否出现了一些人类历史上从未想到过的着法、技巧？
  在哪里能找到各行业的分析研究报告？
  如何评价MSRA视觉组最新对spatial attention mechanism分析论文？
  如何评价周志华在微博对 AlphaGo 和机器学习技术的评论？
  如何用最简单的语言统一描述多元函数求导（对向量求导、对矩阵求导等）？
  2020年，多标签学习（multi-label）有了哪些新的进展？
  《人工智能训练师国家职业技能标准》发布，有哪些值得关注的信息？
  如果百年后深度学习最终有了公认的数学理论作为基础，能解释实验中的各类玄学，那这个理论会长什么样子？
  反馈控制理论在通信、信号处理等领域有哪些应用？
  神经网络为什么可以（理论上）拟合任何函数？
  深度学习到底是「实验科学」还是「理论科学」？能否称为「算法」？
  你实践中学到的最重要的机器学习经验是什么？
  既然使用神经网络也可以解决分类问题，那SVM、决策树这些算法还有什么意义呢？
  在算力充沛，深度学习模型大行其道的今天，传统机器学习的未来在哪里？
  如何评价 DeepMind 公司？
  国内 top2 高校研一在读，为什么感觉深度学习越学越懵?
  为什么要压缩模型，而不是直接训练一个小的CNN？
  马上计算机研一，想问一下机器学习、深度学习…大家都是怎么入门的？
  如何理解链接预测（link prediction）？
  近几年有哪些关于机器学习中隐私（Privacy）和安全（Security）相关的研究值得关注?
  深度学习cnn中，怎么理解图像进行池化（pooling）后的平移不变性？

© 2025-06-23 - tinynew.org. All Rights Reserved.
© 2025-06-23 - tinynew.org. 保留所有权利