手机浏览器扫描二维码访问
抗多重共线性
弱(可能删除相关特征中的一个)
强(通过缩小参数缓解相关性影响)
优化难度
高(不可导,需特殊方法)
低(可导,支持梯度下降)
适用场景
高维、冗余特征数据
特征均有意义、需保留所有特征
4。ElasticNet(弹性网络):L1与L2的结合
为兼顾L1的“特征选择”和L2的“抗共线性”,ElasticNet同时引入L1和L2惩罚项,损失函数为:其中控制L1强度,控制L2强度。适用场景:特征维度极高且存在多重共线性的场景(如基因数据,特征数远大于样本数,且基因间存在相关性)。
三、深度学习中的正则化方法
深度学习模型(如cNN、transformer)参数规模庞大(动辄千万级),过拟合风险更高,除了上述L1L2,还需针对性的正则化技术。
1。权重衰减(weightdecay)
本质
:深度学习中L2正则化的常用实现方式,通过在优化器中直接对参数进行“按比例衰减”(如SGd、Adam优化器均支持weight_decay参数)。
原理
:每次参数更新时,先将参数乘以一个小于1的系数(如0。99),再进行梯度下降,等价于在损失函数中加入L2惩罚项。
注意
:权重衰减仅作用于权重参数,不作用于偏置项和batchNorm的参数(因这些参数对模型复杂度影响小)。
2。dropout(随机失活)
原理
(以全连接层为例):训练时,随机“关闭”(置为0)一部分神经元(比例由参数p控制,通常取0。2~0。5),迫使模型不依赖某一特定神经元,学习更鲁棒的特征;测试时,不关闭任何神经元,而是将所有神经元的输出乘以
就是(或对权重进行缩放),保证输出分布一致。
示例
:一个含100个神经元的全连接层,p=0。5时,每次训练迭代会随机选择50个神经元置为0,仅用剩余50个神经元计算;测试时,100个神经元全部激活,输出乘以0。5。
核心作用
:避免“神经元共适应”(即多个神经元依赖彼此的错误特征),模拟“集成学习”(每次训练都是一个不同的小模型,测试时融合所有小模型的预测)。
3。batchNormalization(批量归一化,bN)
原理
:对每一层的输入数据进行“标准化”(使数据均值为0、方差为1),并引入可学习的缩放参数和偏移参数,增强模型灵活性。
正则化效果
:训练时,bN使用“批次内数据的均值和方差”,测试时使用“训练过程中移动平均的均值和方差”,这种差异会给模型带来微小的噪声,间接抑制过拟合。
附加价值
:加速模型收敛(避免梯度消失爆炸),允许使用更高的学习率,是深度学习的“标配”技术之一(虽非专门为正则化设计,但正则化效果显着)。
4。早停(EarlyStopping)
原理
:训练过程中,持续监控模型在验证集上的性能(如准确率、损失);当验证集性能不再提升(甚至下降)时,立即停止训练,避免模型继续学习训练数据中的噪声。
本质
:通过限制训练迭代次数,防止模型“过度训练”,相当于在“模型复杂度随训练次数增长”的过程中,选择“泛化能力最强”的中间状态。
陆原语录作为一个超级富二代装穷是一种什么体验?别拦着我,没有人比我更有资格回答这个问题!...
王猛,特种兵,代号暴王。此人凶残暴虐,狂猛无敌,乃兵之大凶!凶兵突然回归都市,策马江湖,再搅风云大佬们顿足捶胸放虎归山,控制不住了群号450242488狂兵部落...
这个江湖。有武夫自称天下第二一甲子。有剑仙一剑破甲两千六。有胆小的骑牛道士肩扛两道。但一样是这个江湖,可能是江湖儿郎江湖死,才初出茅庐,便淹死在江湖中。可能对一个未入江湖的稚童来说,抱住了一柄刀,便是抱住了整座江湖。而主角,一刀将江湖捅了个透!临了,喊一声小二,上酒...
化神境修士陈默,与小师妹双双陨落后,竟然重回地球的高三时代?!前世初恋,陈默不屑一顾。前世敌人,陈默一拳打爆。前世你看我不起?今世我让你望尘莫及!...
人族少年叶寒,身怀神秘功法天帝诀,入大世界中,与群雄争霸,观万族并起!天地苍茫,今朝我主沉浮!小说关键词万古天帝无弹窗万古天帝txt全集下载万古天帝最新章节阅读...
盛夏不老不死了上千年,看尽了想到想不到的各种热闹。没想到,她却也成了别人眼里的热闹,在一群不靠谱参谋的参谋下,屡战屡败,屡败屡战本闲初心不改,这本立志要写回言情了!...