打卡时间:2022.8.16
课程名称:深度学习之LSTM模型
章节名称:LSTM的模型原理
讲师: 胖虎
课程内容:LSTM内部结构以及其应用原理
LSTM又称为长短时记忆网络,相比于传统的卷积循环神经网络,LSTM有几个新特性。首先多了一个记忆单元,可以记住重要的前期信息;还有三个控制门用于更新、遗忘和输出。
通过学习LSTM神经元的工作原理可知LSTM首先考虑过的是有哪些信息需要丢弃,之后考虑需要将什么新的信息加入到记忆细胞中,最后是将求解的内容进行输出。LSTM在情感分析、语言模型、序列生成、语音识别、机器翻译、问答系统等一系列具有前后关联性的场景具有重要研究价值。但是通过其内部结构分析我们可以看到这个过程是一个前馈过程,后面的数据只会收到前面信息的影响,后续的不会对前面的内容影响,这也是其局限性所在。而Bi-LSTM的出现同时考虑了序列前向和后面的输入,适用于前后都有关联的场景。
LSTM网络在长依赖做的比较好,但是比较复杂,于是也出现了很多LSTM的变体,,比如说GRU。GRU相比于LSTM简化了不少,从3个门变为2个门,不再有记忆单元,或者可以认为此时网络状态就是记忆细胞的值。相较于LSTM,由于GRU更为简单,有利于构建大型网络,但是LSTM有用更加灵活、强大的结构,目前大多数人还是会选择LSTM作为网络结构。