2.6 损失函数_深度学习500问：AI工程师面试宝典-QQ阅读男生玄幻网

书名：深度学习500问：AI工程师面试宝典
作者名：谈继勇
本章字数：1218字
更新时间：2025-02-18 02:42:57

2.6　损失函数

损失函数（Loss Function）和代价函数的概念很容易混淆。损失函数是定义在单个样本上的，算的是一个样本的误差，而代价函数计算的是整个训练集上所有样本误差的平均误差。

2.6.1　什么是损失函数

损失函数又叫作误差函数，用来衡量算法的运行情况，估量模型的预测值与真实值的不一致程度，是一个非负实值函数，通常使用L（Y，f（x））来表示。损失函数越小，模型的鲁棒性就越好。

2.6.2　常见的损失函数

机器学习通过对算法中的目标函数进行不断求解优化，得到最终想要的结果。在分类和回归问题中，通常使用损失函数或代价函数作为目标函数。

损失函数可以用来评价预测值和真实值不一样的程度。

损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数只预测结果和实际结果的差别，结构风险损失函数是在经验风险损失函数上加上正则项。

下面介绍常用的损失函数。

（1）0-1损失函数

如果预测值和目标值相等，值为0，如果不相等，值为1。

一般在实际使用中，相等的条件过于严格，可适当放宽条件：

（2）绝对值损失函数

和0-1损失函数相似，绝对值损失函数表示为：

（3）平方损失函数

平方损失函数的标准形式为：

（4）对数损失函数

对数损失函数的标准形式为：

常见的逻辑回归使用的就是对数损失函数，很多人认为逻辑回归的损失函数是平方损失函数，其实不然。逻辑回归假设样本服从伯努利分布（0-1分布），进而求得满足该分布的似然函数，接着取对数求极值等。逻辑回归推导出的经验风险损失函数是最小化负的似然函数，从损失函数的角度看，就是对数损失函数。

（5）指数损失函数

指数损失函数的标准形式为：

例如AdaBoost就是以指数损失函数为损失函数的。

（6）Hinge损失函数

Hinge损失函数的标准形式如下：

统一的形式为：

其中y是预测值，范围为（-1,1），t为目标值，其为-1或1。

在线性支持向量机中，最优化问题可等价于：

上式相似于下式：

其中是Hinge损失函数，‖w‖2可看作正则项。

2.6.3　逻辑回归为什么使用对数损失函数

假设逻辑回归模型为：

假设逻辑回归模型的概率分布是伯努利分布，其概率质量函数为：

其似然函数为：

对数似然函数为：

对数函数在单个数据点上的定义为：

则全局样本损失函数为：

由此可看出，对数损失函数与极大似然估计的对数似然函数本质上是相同的。所以逻辑回归直接采用对数损失函数。

2.6.4　对数损失函数如何度量损失

例如，在高斯分布中，我们需要确定均值和标准差，如何确定这两个参数？

极大似然估计是比较常用的方法。极大似然的目标是找到一些参数值，这些参数值对应的分布可以最大化观测到数据的概率。

因为需要计算观测到所有数据的全概率，即所有观测到的数据点的联合概率，所以考虑如下简化情况。

（1）假设观测到每个数据点的概率和其他数据点的概率是独立的。

（2）对联合概率取自然对数。

假设观测到单个数据点的概率为：

其联合概率为：

对上式取自然对数，可得：

根据对数定律，上式可以化简为：

然后求导得：

上式左半部分为对数损失函数。损失函数越小越好，因此我们令等式左半的对数损失函数为0，可得：

同理，可计算σ。

上一章目录下一章