数学联邦政治世界观
超小超大

数学函数

这篇文章主要探讨了层归一化(Layer Normalization, LN)的非线性及其表示能力。LN是深度学习中的一种标准化技术,其主要作用是稳定训练过程,提高模型的收敛速度和性能。作者从理论上证明了LN是一种非线性变换。文章通过定义“Sum of Squares Ratio (SSR)”及其线性不变下界“Linear SSR (LSSR)”,并展示了LN可以打破SSR的下界,从而证明了LN的非线性。

一.LN的基本原理和作用

标准化过程:

• LN对每一个样本的每一层的神经元进行标准化。具体来说,对于输入向量 (包含 个神经元的激活值),LN通过计算均值 和标准差 来进行标准化。 xᵢ – μ

标准化公式如下: ˆx=───,其中

1 d

=√─ ∑(xᵢ – μ)²

d ᵢ₌₁

LN通过可学习的参数 γ 和 β 进行缩放和平移

主要作用:

• 稳定训练过程:通过消除内部协变量偏移(Internal Covariate Shift),使得每一层的输入分布更加稳定,从而加速训练过程。

提高模型性能:LN使得模型在各种任务(如自然语言处理和计算机视觉)中表现更加稳定和高效,特别是在Transformer模型中,LN是不可或缺的组件。

适用于小批量或单样本训练:不同于Batch Normalization(BN),LN不依赖于批量样本的统计信息,因而在小批量或单样本训练中更为有效。

二.LN的非线性

非线性度证明:文章提出了统计量SSR(Sum of Squares Ratio),SSR衡量的是不同类别样本在欧氏空间中的可分离性。SSR越小,样本越容易被线性分离。当对样本进行线性变换时,SSR也会发生变化。定义样本在所有线性变换下对应的最小的SSR为LSSR,用于衡量样本在线性变换下的最小可分离性。文章指出,当LSSR越小时,样本之间的线性可分性越强。

任意可分性的证明:文章将LN拆分为两个步骤:中心化(centering)和尺度缩放(scaling)。中心化从数学上是一个线性变换,因此LN的非线性主要存在于尺度缩放操作当中(文章称之为球面投影,是RMSNorm执行的操作)。作者以最为简单的线性不可分的异或数据为例,通过线性变换和球面投影将这四个点进行了正确分类。除了二分类文章还使用LN和线性层的组合对任意数目样本进行正确分类,研究了具备万能近似能力的LN-Net。通过构造算法步骤,将神经网络的逐层变换转换为同类样本合并问题,提出了PMA(projection merge algorithm)和PBA(parallelization breaking algorithm)。这一构造方法为计算神经网络的VC维也提供了新的思路。在此基础上,可以推断出有L个层标准化层的LN-Net,VC维至少有L+2。

三.LN非线性的利用

提高表示能力:

提出Projection Merge Algorithm (PMA) 和 Parallelization Breaking Algorithm (PBA)。PMA用于构造参数,使得LN-Net可以正确分类给定样本。PBA用于解决多分类问题中的样本混淆问题,通过将样本投影到不同平面来避免不同类别样本的混淆。并给出定理——给定任意标签分配的样本,存在一个具有3个神经元和O(m)个LN层的LN-Net可以正确分类这些样本。

分组归一化 (LN-G):

通过将神经元分组,并在每组内并行执行LN操作,进一步放大LN的非线性。LN-G的非线性强于普通的LN,即使用适当的分组数量时,LN-G可以显著增强网络的非线性。

H(ψɢ(g;·);x) d d

─────── ≥ ─ 当 g=─

H(ψʟ(·);x) 8 4

实验验证:

• 验证LN的非线性:在CIFAR-10和MNIST数据集上,实验结果显示LN-Net在没有激活函数的情况下仍然能够达到较高的分类准确率,验证了LN的非线性。实验中,LN-Net在CIFAR-10和MNIST数据集上分别达到55.85%和19.44%的准确率,远超线性分类器。

• 放大非线性实验:通过在CIFAR-10和MNIST数据集上引入LN-G,实验表明LN-G能够进一步增强模型的非线性和表示能力。不同分组数量的LN-G在CIFAR-10和MNIST数据集上的准确率明显高于普通LN,验证了分组归一化的有效性。

非线性对LN功能的影响:

• 增强表示能力:LN的非线性使得网络能够表示更加复杂的函数,这意味着在某些任务中,即使没有显式的激活函数,网络也能完成复杂的分类和回归任务。

提高模型的泛化性能:非线性有助于避免过拟合,标准化后的数据分布更均匀,更能捕捉到数据的本质特征。

在深度网络中的作用更加明显:随着网络深度增加,LN的非线性效果更加显著,这对于深层模型如Transformer尤其重要。

数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。

相关小说

阿瑞亚大陆 连载中
阿瑞亚大陆
无名柳
(注:主角是短发的女性)人类世界以外的另一个空间,大陆的名字是直接引用了创世神的姓名。这片空间中诸多生灵相处和睦,无比美好。在那个扭曲微妙的......
22.1万字6个月前
青山不知语(红线) 连载中
青山不知语(红线)
鱼头煲鸡汤
原以为自己是没有父亲的,结果等自己母亲死了才知道母亲谈了一个异世界的人,被接回去的时候才知道,自己还有一个姐姐,但这个姐姐很不喜欢她。可以说......
3.5万字6个月前
我在快穿世界里发疯(不是) 连载中
我在快穿世界里发疯(不是)
有价无市
女主蒋芸,因为一次意外,她来到了这个叫快穿的世界。并且结识了叫瑞瑞的系统。可是,她似乎失去了自己的记忆。于是她大手一摆,竟然来了,那就好好玩......
14.3万字5个月前
愚人众执行官深空之恋(又名:原神深空传) 连载中
愚人众执行官深空之恋(又名:原神深空传)
琉璃女帝
愚人深空智慧超能力执行官传奇无人深空恋与制作人恋与深空探险冒险探索背景的“智慧超能力执行官传奇”故事:愚人众执行官恋与深空智慧城市智慧智能机......
64.7万字2个月前
生活里的生活 连载中
生活里的生活
大森林狂想曲
未来的潮流趋势,谁也不知道,科技是永恒的话题
6.4万字2个月前
世界都要穿成筛子了 连载中
世界都要穿成筛子了
一步至岸
星际时代,基因强化伴随而来的是基因异变的问题,为了解决问题,传送平行世界的人来到星际,研究星际时代前的人与星际时代的人基因不同点,以此解决问......
0.7万字6天前