Activation SWIGLU的介绍

"时间是金"

Posted by 王川 on July 24, 2023

https://zhuanlan.zhihu.com/p/621058772

activation functions

SWISH(或称为SWIGLU)是一种激活函数,而GLU(Gated Linear Unit)、ReLU(Rectified Linear Unit)、Sigmoid和Tanh也都是深度学习中常见的激活函数。它们在神经网络中用于引入非线性性,使得模型可以学习复杂的非线性关系。下面将详细介绍每个激活函数的特点和区别:

SWISH(SWIGLU)激活函数: SWISH是”Swish Activation”的缩写,也被称为Swish-Gated Linear Unit(SWIGLU)。它由Google在2017年提出,其公式如下:

f(x) = x * sigmoid(x)

SWISH激活函数结合了线性操作和Sigmoid操作。它具有Sigmoid函数的非线性性,同时又包含线性操作,这使得它相对于ReLU等激活函数更平滑,有助于减轻梯度消失问题。SWISH在一些深度学习任务中表现良好,但在其他任务中可能不如其他激活函数效果好,因此在实际应用中需要根据具体问题进行选择。

GLU(Gated Linear Unit)激活函数: GLU是”Gated Linear Unit”的缩写。它最初是由Google在2017年提出,用于自然语言处理(NLP)领域中的一种模型结构Transformer。其公式如下:

f(x) = x * sigmoid(x)

GLU激活函数和SWISH的公式相同,但是GLU通常用于特定的神经网络层或模型结构,如Transformer的编码器中。GLU通过门控机制,使得输入信号在经过Sigmoid激活后与原始输入进行点积操作,从而实现特定的特征选择和过滤。

ReLU(Rectified Linear Unit)激活函数: ReLU是深度学习中最常用的激活函数之一。它的公式如下:

f(x) = max(0, x)

简单来说,ReLU将所有小于零的输入值设置为零,而大于零的输入值保持不变。这使得ReLU具有非常简单和高效的计算,同时也帮助解决了梯度消失问题。然而,ReLU对负数输入的输出恒为零,可能导致“神经元死亡”问题,在反向传播过程中,这些神经元的梯度将永远为零,无法更新参数。

Sigmoid激活函数: Sigmoid函数的公式如下:

f(x) = 1 / (1 + exp(-x))

Sigmoid函数将输入映射到0和1之间的范围,具有平滑的S形曲线。在过去,Sigmoid函数在神经网络中被广泛使用,但它也存在梯度消失的问题。当输入较大或较小时,Sigmoid函数的导数接近于零,导致梯度消失。因此,在深度学习中,Sigmoid函数现在主要用于二元分类任务的输出层,而不再被普遍作为隐藏层的激活函数。

Tanh激活函数: Tanh函数的公式如下:

f(x) = (2 / (1 + exp(-2x))) - 1

Tanh函数类似于Sigmoid函数,但它将输入映射到-1和1之间的范围。与Sigmoid函数相比,Tanh函数的输出范围更广,均值接近零,具有更好的中心化特性。然而,Tanh函数也存在梯度消失的问题,尤其是在输入较大或较小的情况下。

在选择激活函数时,通常需要根据具体的任务和模型结构进行权衡。ReLU是目前最常用的激活函数之一,但在某些情况下,SWISH、GLU或其他激活函数可能表现更好,因此需要进行实验和调整以找到最适合的激活函数。