深度学习依赖于神经网络所提取的特征而闻名,在以往传统的学习方法中,特征往往是通过具有经验的专家来提取的,而深度学习方法中的特征提取是通过人工神经网络自动提取的,相比而言,深度学习方法对于特征的提取不仅要求更低,不需要专家的参与,而且少了人为的干预,对于特征本身的提取也更加全面,这也是深度学习最近几年在实际应用中越来越受欢迎的原因之一。
特征在字面意思上的解释是对于人或事物可供识别的特殊的象征或标志,简单来说,特征往往比其他非特征部分更容易让人们所分辨。既然特征是一个显著性的标志,那么我们对比不同物体的时候,是否只需要抓住这些特征就能够对比出两类物体呢?答案是肯定的,实际上我们人类在分辨物体的时候,大脑中所处理的信息就是当前物体的特征信息。
我们的大脑进化了亿万年,早已经是已知的生物中最强大的神经网络了,其特征提取能力更是一骑绝尘,没有其他任何可以替代人脑的第二个智慧容器了。人脑进化到目前的优势之一就是特征的快速提取,我们的大脑就像一个滤波器,会在很短的时间内,帮我们筛选出有用的信息,滤除掉冗余的信息,在这一点上人工神经网络还需要很长的路要走。
按照人脑的信息对比,特征即是对当前任务处理有用的信息,反之对当前任务处理无用的信息则是冗余信息。人脑由于遗传和进化的原因,自然对特征的提取相当准确,这帮助人类在物竞天择、适者生存的自然法则下胜出,从而站立在生物链的最顶端。和人脑相比,现在以深度学习人工神经网络为主的人工智能发展还处于工业革命时代的前夕,当人工智能的发展到了一定阶段,理论上像《终结者》、《黑客帝国》中的智能体都是轻而易举就能实现的。
人工神经网络想要达到人脑的处理效果和效率,就要提高对于特征的理解和提取,无论是分辨不同的对象还是找到目标的位置,都需要对具体物体的特征进行高精度的提取,拿到特征后才能进行下一步操作。目前人工神经网络能够提取到的特征虽然说已经比较全面了,但这都是在单一任务下的特征提取效果,如果是多任务下的特征提取,情况就不太乐观了。
上面说的多任务是指让人工智能同时执行多个不同的任务,比如训练一个神经网络,让这个神经网络既要学会下棋,又要学会弹钢琴,这个时候,人工神经网络往往达不到我们的预期,所以目前的人工智能还是弱人工智能,也就是说,目前的人工智能能够在某一领域达到或者超越人类,比如Alpha GO在围棋领域已经超越人类,但是不能够同时在多个领域超越人类,这也是判定弱人工智能和强人工智能的边界。
特征的可解释性一直是业界的一大难题。甚至于在欧盟内部因为以深度学习为主神经网络模型给不出合理的特征解释,而被停止商用,这也是行业内外很多人士对于深度学习并不推崇的原因之一。当然就像有些经典语录一样,虽然嘴上说着不喜欢,但是身体却很诚实,这在深度学习当中也是常见的现象,有些嘴上说着深度学习就是一个黑盒子,没有可解释性,只有传统的人工特征提取方法才是安全的方法,但是在实际工作中却不得不使用深度学习的方法来完成工作,这也是免不了真香定律。
一般来说传统的学习方法虽然提取特征的过程比较繁琐,需要专业人员来进行提取,也有可能会造成提取的特征不全,但是因其具有良好的可解释性,一直在学术界备受推崇,而深度学习在前几年并不受业界研究者的待见,只有在工业界才可以看到其身影,近两年随着落地应用越累越多,才逐渐被大家所接受。
举个例子,以红酒分类为例,在传统的人工提取特征的方法中,想要拿到红酒的特征,必须要专业的红酒专家来分析不同的红酒成分来确定不同的红酒种类,这些不同的红酒成分就是红酒的特征,比如颜色、口感、年份、酒精度、原料、是否起泡、微量元素含量等等,都是需要红酒专家来确定的,等专家们确定好这些特征了,然后再通过一些传统的机器学习方法对这些特征进行分类,就完成了对红酒的分类。
上面对红酒分类的整个过程,最复杂的就是人工对特征的提取过程,虽然过程繁琐,但是我们知道这些特征代表的意义是什么,也就是特征的可解释性非常好。反观深度学习中对于特征的提取就没有这么讲究了。一般来说,只要是输入神经网络中的数据,不管是什么数据,对于神经网络而言都是一堆矩阵,只要定好标签,给上一定范围内的随机参数,让其反复的进行学习即可,神经网络通过反向传播算法,最终会学习出正确的输出结构,而输入数据的特征在学习的过程中就形成了。
至于神经网络中的特征到底是什么,就没有人能解释得清楚了,通过神经网络拿到的特征,无论是网络层中哪个部位取出的特征,都只能显示出一堆矩阵,具体代表了什么现实意义,是没有任何线索可以追踪的。从另一方面来说,由于神经网络中的特征是模型在学习的过程中逐渐生成的,所以这些特征没有人为的干预,特征的分布更加客观,更有利于模型进行分类或者回归,这是传统的人工设计的特征无法相比的。
传统的特征提取方法是通过人工提取而来,人工神经网络中的特征是通过网络层计算得来的,最简单的特征提取方法就是在确定好数据标签y’后,通过反向传播算法和线性层来提取特征,比如y=wx+b,其中y是输出值,x是固定输入,w是权重,b是偏差,w和b都会随着模型的反向传播不断更新。一般通过损失函数E=1/2(y-y’)求得损失,然后通过反向传播算法降低损失E,由于损失函数中的y’是固定的,只有改变输出y,让y和y’越来越接近,才能够达到我们的目的,而改变y的值回到了前向输出公式y=wx+b上,在这个公式中,能够改变的值就只有w和b,所以最终我们通过改变w和b的值让输出的y发生变化,让其和标签y’更加接近。可见,在输入x不变的前提下,w和b的改变会让输出y有越来越接近标签y’。
再复杂一些就是添加一个非线性函数,比如y=f(wx+b),这个f就是非线性函数,其作用就是将原来的线性空间的数值映射到非线性空间,让模型具有非线性的分类或者拟合能力。其本质是对维度的提升,比如在低维空间中线性不可分的问题,也就是不能使用一条直线对其分割的问题,我们只有使用非线性方法才能对其分割,比如使用曲线和折线对其分割,而在高维空间中就可以使用线性方法对其分割了。所以说低维空间中的线性不可分问题转到高维空间中就变成了线性可分的问题。
神经网络中的特征是通过学习而获得的,正常情况下,在网络层较浅的时候,提取到的特征不会有很强的标志性,这个标志性是指特征对原数据的代表性。而到了网络层数较深的时候,模型提取到的特征会有较强的代表性。当要解决的任务越复杂,对模型的参数要求也越高,往往这个时候的网络层数也更深,即意味着能够解决更复杂的任务。所以可以认为网络层数越深,对于特征的提取能力越强。
但是凡事都会出现物极必反的现象,神经网络也是一样,按照正常逻辑,网络层数越深,往往意味着模型的能力越强,所处理的任务会越好。但是这种想法忽略了一个重点,那就是要被处理的任务本身,一般来说我们只需要设计出一个模型刚好能够满足被处理的任务就可以了,但是神经网络是在训练的过程中才逐渐理解到该任务到底需要多大的神经网络才是合适的,也就是说在处理任务之前,我们并不知道到底要多深的网络才是合适的。这种困惑导致网络模型往往设计的比要处理的任务实际需要的网络模型大了很多。
网络模型过大,对于简单任务来说是一件吃力不讨好的事情,不但增加了冗余的参数量,导致对于硬件要求的提升,还会增减额外的训练时间以及影响推理速度。最主要的是模型过大过深,还会导致在处理简单任务的时候出现模型退化的问题,也就是说网络越深,精度反而会降低。一般是网络在较浅的时候,精度是逐渐提高的,当网络深度达到一定阈值后,精度又会逐渐降低。
好在华人学者Kaiming He等人早在2015年时候就提出了Deep Residual Learning的方法,论文中提出了一种新的网络结构Res-Net,采用了恒等映射的方法,消除了多余的网络层数,使得一个较深的网络能够随着任务的复杂度而自适应的训练所需的网络层参数,而非统一训练,从而解决了网络退化这个问题。
网络层中的特征变化有利于我们进行不同的任务,一般来说网络层数越浅,特征的维度也越低,特征所表现出的信息越细节,覆盖越局部,内容也越具体。反之,网络层数越深,特征维度也越高,特性表现出的信息也越整体,覆盖越全面,内容也越抽象。根据这些特性,我们可以很好的设计不同任务的网络,比如分类网络对于特征的信息越全面更有利于分类,这时候的网络我们可以设计得更深一些,而像检测、分割等任务,不仅仅需要全面的信息,还需要局部的信息,尤其是在做细粒度分割任务的时候,浅层网络所带来的细节部位的分割精度是深度网络所达不到的,这时候一般就需要浅层网络联合深层网络一起完成任务。
神经网络的快速发展是最近这几年才大规模开始的,关于神经网络特征的理解,也是仁者见仁,智者见智,但是总体的目标是不变的,那就是朝着越来越高效的特征提取方向发展。不管是以前的CNN模型,还是这两年的transformers模型,以及提出的各种注意力的方法,都是在设计怎么去除掉对于当前任务无关的冗余信息,增加对于当前任务有用的信息权重,从而实现特征的高效提取,以达到快速高效的完成任务。
关注微信公众号:深度人工智能学院,获取更多人工智能方面的知识!
作者:智谷炼药协会学徒