为什么多特征融合能导致更好的性能?

songxf
2022-03-13 / 0 评论 / 211 阅读 / 正在检测是否收录...
温馨提示:
本文最后更新于2022年09月08日,已超过87天没有更新,若内容或图片失效,请留言反馈。
涉及知识点:集成学习算法 (Ensemble Learning)

传统机器学习算法 (例如:决策树,人工神经网络,支持向量机,朴素贝叶斯等) 的目标都是寻找一个最优分类器尽可能的将训练数据分开。集成学习 (Ensemble Learning) 算法的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。

Thomas G. Dietterich指出了集成算法在统计,计算表示上的有效原因:

  • 统计上的原因
    一个学习算法可以理解为在一个假设空间H中寻找到一个最好的假设。但是,当训练样本的数据量小到不够用来精确的学习到目标假设时,学习算法可以找到很多满足训练样本的分类器。所以,学习算法选择任何一个分类器都会面临一定错误分类的风险,因此将多个假设集成起来可以降低选择错误分类器的风险
  • 计算上的原因
    很多学习算法在进行最优化搜索时很有可能陷入局部最优的错误中,因此对于学习算法而言很难得到一个全局最优的假设。事实上人工神经网络和决策树已经被证实为是一个NP 问题[3/4] 。集成算法可以从多个起始点进行局部搜索,从而分散陷入局部最优的风险。
  • 表示上的原因
    在多数应用场景中,假设空间H中的任意一个假设都无法表示(或近似表示)真正的分类函数f。因此,对于不同的假设条件,通过加权的形式可以扩大假设空间,从而学习算法可以在一个无法表示或近似表示真正分类函数f的假设空间中找到一个逼近函数f的近似值

集成算法大致可以分为:BaggingBoostingStacking等类型。

原文链接:

https://leovan.me/cn/2018/12/ensemble-learning/

推荐阅读:

相似性和距离度量Similarity & Distance Measurement

0

评论 (0)

取消