深度学习中的循环神经网络入门讲解

发布时间：2026-01-09 06:51:16 阅读：29 次

什么是循环神经网络

在处理视频、语音、文本这类有时间顺序的数据时，普通神经网络往往力不从心。比如你让模型看一句话：‘我昨天吃了苹果’，它需要记住前面的‘我’是谁，才能理解后面的动作为谁所做。这时候，循环神经网络（RNN）就派上用场了。

RNN 的核心思想是“记忆”。它不像传统网络那样每一步独立处理输入，而是把上一步的输出信息传递到下一步，形成一种链式结构。这种结构让它能捕捉时间序列中的依赖关系，就像人读句子时会记住前面的内容一样。

RNN 的基本结构

一个标准的 RNN 单元在每个时间步接收两个输入：当前时刻的数据 x_t，以及上一时刻的隐藏状态 h_{t-1}。它通过一个共享权重的神经网络层计算出当前的隐藏状态 h_t 和输出 y_t。

公式表示为：

h_t = tanh(W_{hh} \cdot h_{t-1} + W_{xh} \cdot x_t + b_h)
y_t = W_{hy} \cdot h_t + b_y

这里的权重矩阵 W 在所有时间步中是共享的，这也是 RNN 能够处理任意长度序列的原因之一。

举个生活中的例子

想象你在看一部连续剧，每一集的情节都依赖于前几集的发展。如果你跳过中间几集，可能就看不懂主角为什么突然翻脸。RNN 就像一个忠实观众，它会记住前面剧情的关键信息，并用这些信息来理解当前这一集发生了什么。

简单代码实现 RNN 预测字符

用 Python 和 PyTorch 写一个极简的 RNN 模型，让它学会根据前几个字母预测下一个字母。比如输入 'hel'，希望它输出 'l' 后面的 'o'。

import torch
import torch.nn as nn

# 定义一个最简单的 RNN 模型
class SimpleRNN(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(SimpleRNN, self).__init__()
        self.hidden_size = hidden_size
        self.rnn = nn.RNN(input_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, output_size)
    
    def forward(self, x, hidden):
        out, hidden = self.rnn(x, hidden)
        out = self.fc(out)
        return out, hidden

这段代码定义了一个基础 RNN 模型，可以用来处理字符级别的序列任务。虽然实际应用中我们会用更复杂的变体，但这个结构已经体现了 RNN 的核心机制。

长期依赖问题与 LSTM

标准 RNN 有个明显短板：当序列太长时，早期的信息容易被稀释，就像你背一段很长的电话号码，记到后面前面就忘了。这个问题叫“梯度消失”，导致模型无法学习远距离依赖。

为了解决这个问题，LSTM（长短时记忆网络）应运而生。它在 RNN 基础上加了“记忆单元”和三个门：遗忘门、输入门、输出门。这些门控制信息的流动，决定哪些该保留、哪些该丢弃。

# PyTorch 中使用 LSTM 更简单
lstm = nn.LSTM(input_size, hidden_size, num_layers=1, batch_first=True)

LSTM 在机器翻译、语音识别等任务中表现优异，至今仍是许多系统的核心组件。

应用场景不止于文字

很多人以为 RNN 只用于处理语言，其实它的用途广泛得多。比如在股票预测中，模型需要根据过去几天的价格走势判断明天趋势；在手势识别中，摄像头每一帧画面组成时间序列，RNN 能从中识别出完整动作；甚至在音乐生成中，它也能写出连贯的旋律。

你现在用的语音助手，背后很可能就有 RNN 或其变体在工作。当你说话时，它不是逐字处理，而是结合上下文理解整句话的意思。