机器学习期末复习——第三章

一、重点知识点回顾

1. 线性回归

线性回归（Linear Regression）是最为基础的机器学习模型之一，它试图学得一个线性模型来尽可能准确地预测实值输出标记。也就是说，对于线性回归方程$$f\left( x_i \right) =wx_i+b,$$其目标就是使得预测值 $f\left( x_i \right)$ 尽可能逼近实际值 $y_i$ 。

那么，线性回归方程的损失函数即为：

[
\begin{aligned}
E_{\left( w,b \right)} &= \sum_{i=1}^m \left( y_i - f\left( x_i \right) \right)^2 \
&= \sum_{i=1}^m \left( y_i - \left( wx_i + b \right) \right)^2 \
&= \sum_{i=1}^m \left( y_i - wx_i - b \right)^2
\end{aligned}
]

2. 多分类学习

多分类学习不难理解，不失一般性，将其考虑为N个类别： $C_1$ 、 $C_2$ 、…、 $C_N$ ，那么常见的多分类学习策略就是将这N个类别进行拆解，将其拆解为若干组两个类别的组合，也就是将多分类任务拆为若干个二分类任务求解。这里的关键就是如何对多分类任务进行拆分，以及如何对多个分类器的结果进行集成，常见的拆分策略有以下几种：

1）一对一（One vs One，OvO）

OvO是将上述N个类别两两进行配对，从而产生N（N-1）/2个二分类任务，继而得到N（N-1）/2个二分类结果。那么最终结果可通过投票产生，把被预测得最多的类别作为最终的分类结果。

2）一对其余（One vs Rest，OvR）

OvR则是每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器（也就是得到N个二分类结果）。在测试时若仅有一个分类器预测为正类，则对应的类别标记作为最终分类结果（如图3.4所示）；若有多个分类器预测结果都为正类，则需要结合其置信度进一步考虑。

3）多对多（Many vs Many，MvM）

MvM是一种更为一般的策略，它每次将若干个类别作为正类，另外若干个类别作为反类来构建二分类任务。同样的，其核心也是如何系统地设计这些正反类的组合，最常用的技术是纠错输出码（ECOC）：

编码：对N个类别进行M次划分，每次划分将一部分类别标记为+1（正类），另一部分标记为-1（反类），这样就形成了M个二分类训练集，可以训练出M个分类器。这M次划分构成了一个N×M的编码矩阵，每一行可以看作一个类别的“唯一身份证”。
解码：预测时，用M个分类器对样本进行预测，得到一个长度为M的预测编码。然后，将这个预测编码与每个类别固有的编码（N×M编码矩阵中的每一行）进行比较。最终，选择距离最小的那个类别作为预测结果。

这样一来就实现了对分类器错误的容忍和修正能力（即使某个或某几个分类器预测错误，但只要大部分预测正确，最终的类别编码仍然最接近真实类别，从而得出正确结果），编码越长，纠错能力越强。

二、重点题目回顾

机器学习

#机器学习

机器学习期末复习——第三章

http://example.com/2026/01/07/ml05/

作者

谢斐

发布于

2026年1月7日

许可协议

机器学习期末复习——第四章上一篇

机器学习期末复习——第二章下一篇