3.Transformer架构

## 1.Transformer结构

传统的神经网络算法，如**RNN**、**LSTM**、**GRU**，在NLP技术上都有一些缺陷。

### RNN的缺陷

- **梯度消失和梯度爆炸问题**：在处理长序列时，RNN的梯度可能会消失或爆炸，导致模型难以学习到长期依赖关系。
- **不可并行计算**：RNN的计算过程是按时间步序列进行的，每个时间步的计算依赖于前一个时间步的隐藏状态，因此无法实现并行计算，训练速度较慢。
- **参数量大，容易过拟合**：RNN的参数量相对较大，容易在训练过程中过拟合，需要更多的数据和正则化技术来缓解。

### LSTM的缺陷

- **训练成本高**：由于其复杂的网络结构和大量的参数，训练LSTM模型需要大量的计算资源和时间。
- **容易过拟合**：LSTM模型参数数量较多，且有很多参数都是非线性的，容易在训练过程中过拟合。
- **难以训练**：尽管LSTM通过门控机制缓解了梯度消失问题，但在某些情况下，特别是在非常长的序列中，梯度仍然可能消失。
- **不可并行处理**：LSTM的循环特性使得其难以像卷积神经网络那样进行高效的并行处理，限制了其在大规模数据集上的处理速度。

### GRU的缺陷

- **不能完全解决梯度消失问题**：尽管GRU在捕捉长序列语义关联时能有效抑制梯度消失，但仍不能完全解决这一问题。
- **不可并行计算**：作为RNN的变体，GRU继承了RNN结构本身的一大弊端，即不可并行计算，这在数据量和模型体量逐步增大的未来，是RNN发展的关键瓶颈。
- **参数量相对较少，但仍有优化空间**：GRU的参数量相对LSTM较少，但仍有一定的优化空间，以进一步减少过拟合的风险。

Transformer架构在一定程度上解决了以上这些问题。

![v2-4544255f3f24b7af1e520684ae38403f_r](https://image.nyazira.top/Article/v2-4544255f3f24b7af1e520684ae38403f_r.png)

## 2.大模型的训练方法

### 2.1 预训练

- **定义**：预训练是指在模型的初始阶段，使用大量数据对模型进行训练，以便让模型学习到通用的特征和知识。
- **数据使用**：预训练使用广泛的数据集，追求数据的多样性和规模。
- **目标任务**：预训练不针对特定任务，而是学习通用的语言特征和结构。
- **优势**：预训练阶段使用了多样化的海量语料，这些数据涵盖了广泛的领域和语言结构，帮助模型学习到语言的底层规律，不同场景下的通用模式和上下文关系。模型通过预训练，积累了关于语言和世界知识的普遍理解，这种知识能够在下游任务中跨领域迁移和应用。

### 2.2 监督微调

- **定义**：监督微调是一种有监督学习方法，通过在有标签数据上对预训练模型进行进一步训练，以适应特定的任务。
- **数据使用**：监督微调使用与目标任务相关的小规模、高质量标注数据。
- **目标任务**：监督微调针对特定的应用或任务进行优化，如医疗咨询、金融分析等。
- **优势**：监督微调阶段使用与目标任务相关的小规模、高质量标注数据来进一步训练模型，让模型能更精确地适应特定的场景或任务。微调让模型可以在一个广泛知识的基础上，快速适应某些特定领域的特定需求，而不必从头训练，体现了迁移学习的强大之处。

### 2.3 强化学习

- **定义**：强化学习是一种机器学习方法，通过让模型与环境进行交互，根据环境反馈的奖励信号来学习最优的行为策略。
- **数据使用**：强化学习通常使用模型生成的数据和人类反馈的数据。
- **目标任务**：强化学习的目标是让模型通过实践和试错来发现解决问题的最佳方法。
- **优势**：强化学习阶段，模型会尝试多种不同的解题方法，这些方法可能来自不同的prompt。之后评估解决方案，检查每个解决方案是否正确。正确的解决方案会被标记为“好”，错误的解决方案会被标记为“坏”。通过这种方式，模型可以不断优化其行为，生成更符合人类期望的回答。

## 3.基于编码器的大模型

**基于编码器的大模型**（如BERT）主要用于理解输入序列的语义和结构，生成固定长度的表示，适用于文本分类、情感分析、问答系统等任务。

**训练方式**：通常使用无监督学习或自监督学习方法进行预训练。例如，BERT通过遮蔽语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）任务进行预训练。

**生成方式**：通常不直接生成文本，而是生成固定长度的表示，用于下游任务的输入。例如，BERT生成的表示可以用于分类任务的输入。

**优点**：擅长理解输入序列的语义和结构，生成的表示具有丰富的语义信息，适用于各种下游任务。

**缺点**：不直接生成文本，需要结合其他模型或任务特定的解码器进行文本生成。

![image-20250216171843780](https://image.nyazira.top/Article/image-20250216171843780.png)

## 4.基于解码器的大模型

**基于解码器的大模型**（如GPT）主要用于生成输出序列，适用于文本生成、机器翻译、对话系统等任务。

**训练方式**：通常使用无监督学习或自监督学习方法进行预训练。例如，GPT通过语言模型任务（即预测下一个词）进行预训练。

**生成方式**：通过自回归方式逐步生成输出序列。例如，GPT通过预测下一个词的方式生成文本。

**优点**：擅长生成连贯的文本，适用于文本生成、机器翻译等任务。

**缺点**：生成过程是自回归的，生成速度较慢，且容易受到前一步生成错误的影响。

```
我

我今

我今天

我今天去

我今天去学

我今天去学校

我今天去学校上

我今天去学校上学
```

3.Transformer架构