论文笔记:LSTM: A Search Space Odyssey
2018-11-10作者
- Klaus Greff
- Rupesh Kumar Srivastava
- Jan Koutnik
- Bas R. Steunebrink
- Jurgen Schmidhuber
观点
- LSTM 结构的核心思想是其能维护历史状态的记忆单元,以及能调节信息出入的非线性门控单元(gating unit)
- 自 LSTM 提出后,陆续有多种对 LSTM 结构的改进工作,并广泛应用到了许多规模、性质迥异的问题上,但却缺乏对 LSTM 及其变体中各个计算部件的系统性分析
模型/实验/结论
模型,LSTM 即八种待对比的 LSTM 变体
- V: vanilla LSTM,即经典的 LSTM 模型
- NIG: 在 LSTM 基础上去除 input gate 得到的结构
- NFG: 在 LSTM 基础上去除 forget gate 得到的结构
- NOG: 在 LSTM 基础上去除 output gate 得到的结构
- NIAF: 在 LSTM 基础上去除 input activation function 得到的结构
- NOAF: 在 LSTM 基础上去除 output activation function 得到的结构
- NP: 在 LSTM 基础上去除 peephole 得到的结构
- CIFG: 既 GRU
- FGR: 在 LSTM 基础上让门控单元互相之间都有连接(full gate recurrence)
实验
- 在 TIMIT 数据集和 IAM 在线手写数据库上使用双向 LSTM,在 JSB Chorales 数据集上使用 LSTM
- 在 TIMIT 数据集和 JSB Chorales 上使用交叉熵作为损失函数,在 TIMIT 数据集上则使用 CTC
- 对总共 27 个模型各进行 200 次对数尺度上的超参搜索,然后进行训练,共进行 5400 次实验
- 每个数据集上的每个变体的 200 次实验中,最好的 20 个实验结果被拿来和 vanilla LSTM 模型的结果对比
结论
- 在三个数据集上,移除 forget gate 或 output activation function 都严重损害了模型性能,forget gate 对 LSTM 来说至关重要
- 对连续实数数据上的监督学习问题,input gate、output gate 和 input activation function 的存在非常重要
- GRU 和 移除 peephole 的变体相比 vanilla LSTM 没有显著的性能差异,但它们都在一定程度上简化了 LSTM 结构
- full gate recurrence 结构没有改善 LSTM 的性能,相反还在 JSB Chorales 数据集上让结果变差了不少,加上它让 LSTM 更复杂了,不建议使用
- 动量项对性能和训练速度都没有提高作用
- 梯度裁剪会损害整体性能
- 在使用 SGD 进行训练时,动量项对训练没什么显著好处;但在用 BSGD 进行训练时可能会起到一定的作用
- 学习率和网络大小是 LSTM 中非常重要的两个超参