统计学习方法笔记——第1章-统计学习方法概论

统计学习方法三要素

从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;最优模型的选取由算法实现。

这样,统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)\[ 方法=模型+策略+算法 \] 实现统计学习方法的步骤如下:

  1. 得到一个有限的训练数据集合;
  2. 确定包含所有可能的模型的假设空间,即学习模型的集合
  3. 确定模型选择的准则,即学习的策略
  4. 实现求解最优模型的算法,即学习的算法
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数.模型的假设空间(hypothesis space,\(\mathcal F=\{f|Y=f(X)\}或\mathcal F=\{P|P(Y|X)\}\))包含所有可能的条件概率分布或决策函数。\(X\)\(Y\)是定义在输入空间\(\mathcal X\)和输出空间\(\mathcal Y\)上的变量。

\(\mathcal F\)通常是由一个参数向量决定的函数族:\(\mathcal F=\{f|Y=f_\theta(X),\theta\in \mathbf R^n\}或\mathcal F=\{P|P_\theta(Y|X),\theta\in \mathbf R^n\}\),参数向量\(\theta\)称为参数空间。

策略

策略:按照什么样的准则学习或选择最优的模型。

损失函数和风险函数

损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

损失函数(loss function)或代价函数(cost function)来度量预测错误的程度,损失函数值越小,模型就越好。损失函数是$ f (X )$ 和\(Y\) 的非负实值函数,记作$ L( Y, f(X ))$。

风险函数(risk function)或期望损失(expected loss)是理论上模型 $f ( X) $ 关于联合分布 \(P( X,Y)\) 的平均意义下的损失,是损失函数的期望: \[ R_{exp}(f)=E_P[L(Y,f(X))]=\int_{\mathcal X×\mathcal Y}L(y,f(x))P(x,y)dxdy \] 学习的目标就是选择期望风险最小的模型。一方面根据期望风险最小学习模型要用到联合分布\(P(X,Y)\),另一方面联合分布又是未知的,所以监督学习就成为一个病态问题(ill-formed problem)。

模型 \(f ( X)\) 关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss),记作 \(R_{emp }\)\[ R_{emp }(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) \] 期望风险 \(R_{exp}(f)\) 是模型关于联合分布的期望损失,经验风险\(R_{emp }(f)\)是模型关于训练样本集的平均损失。根据大数定律,当样本容量 \(N\) 趋于无穷时,经验风险趋于期望风险。

经验风险最小化与结构风险最小化

经验风险最小化(empirical risk minimization,ERM)的策略认为,经验风险最小的模型是最优的模型。 \[ \min_{f\in \mathcal F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) \] 极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计(见习题1.2)。

结构风险最小化(structural risk minimization,SRM)是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化(regularization)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。

结构风险的定义: \[ R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) \] 结构风险最小化策略认为结构风险最小的模型是最优的模型: \[ \begin{align} \min_{f\in \mathcal F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) \end{align} \] 其中$ J ( f)$ 为模型的复杂度,是定义在假设空间上的泛函。

模型 \(f\) 越复杂,复杂度$ J ( f)$ 就越大;反之,模型 \(f\) 越简单,复杂度$ J ( f)$ 就越小。也就是说,复杂度表示了对复杂模型的惩罚。\(\lambda≥ 0\) 是系数,用以权衡经验风险和模型复杂度结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation,MAP)就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型

统计学习方法分类

基本分类

  1. 监督学习;

  2. 无监督学习;

  3. 强化学习;

    有时还包括:

  4. 半监督学习;

  5. 主动学习。

监督学习

监督学习关于数据的基本假设:\(X\)\(Y\)具有联合概率分布\(P(X,Y)\)

训练数据与测试数据被看作是依联合概率分布 \(P( X, Y )\)独立同分布产生的。

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。

监督学习的模型可以是概率模型或非概率模型,由条件概率分布 \(P(Y|X )\)或决策函数(decision function)\(Y=f(X)\)表示。

无监督学习

从无标注的数据中学习预测模型的机器学习问题。本质是学习数据中的统计规律或潜在结构。

无监督学习的模型可以表示为函数\(z=g(x)\),条件概率分布\(P(z|x)\),或条件概率分布\(P(x|z)\)。在预测过程中,预测系统对于给定的输入\(x_{N+1}\),由模型\(z_{N+1}=\hat g(x_{N+1})\)\(z_{N+1}=\arg max_{z}\hat P(z|x_{N+1})\)给出相应的输出\(z_{N+1}\),进行聚类或降维;或者由模型\(\hat P(x|z)\)给出输入的概率\(\hat P(x_{N+1}|z_{N+1})\),进行概率估计。

强化学习

智能系统在与环境的连续互动中学习最优行为策略。

在每一步\(t\),智能习题从环境中观察到一个状态(state)\(s_t\)与一个奖励(reward)\(r_t\),采取一个动作(action)\(a_t\)。环境根据智能系统选择的动作,决定下一步\(t+1\)的状态\(s_{t+1}\)与奖励\(r_{t+1}\)。要学习的策略表示为给定状态下采取的动作。目标是获得长期累积奖励的最大化。

半监督学习

利用少量标注数据和大量未标注数据学习预测模型。利用未标注数据中的信息,辅助标注数据进行监督学习。

主动学习

机器不断主动给出堆学习最优帮助的实例让教师进行标注,然后利用标注数据学习预测模型。

按模型分类

概率模型和非概率模型

监督学习中,概率模型取条件概率分布形式\(P(y|x)\),无监督学习中,概率取条件概率分布形式\(P(z|x)\)\(P(x|z)\)

监督学习中,非概率模型取函数形式\(y=f(x)\),无监督学习中,概率取函数形式\(z=g(x)\)

常见概率模型:决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在迪利克雷分配、高斯混合模型。

常见非概率模型:感知机、支持向量机、k近邻、Adaboost、k均值、潜在语义分析。

logstic回归既可以看作是概率模型也可以看作是非概率模型。

线性模型和非线性模型

如果函数\(y=f(x)\)\(z=g(x)\)是线性函数,则称模型是线性模型,否则称模型是非线性模型。

常见线性模型:感知机、线性支持向量机、k近邻、k均值、潜在语义分析。

常见非线性模型:核支持向量机、Adaboost、神经网络。

参数化模型和非参数化模型

参数化模型假设模型参数维度固定,模型可以由有限维参数完全刻画。

非参数化模型假设模型参数维度不固定或无穷大,随着训练数据量的增加而不断增大。

常见参数化模型:感知机、朴素贝叶斯、logstic回归、k均值、高斯混合模型。

常见非参数化模型:决策树、支持向量机、k近邻、潜在语义分析、概率潜在语义分析、潜在迪利克雷分配。

按算法分类

在线学习online learning

每次接受一个样本,进行预测,之后学习模型,不断重复。

随机梯度下降的感知机学习算法是在线学习算法。

批量学习batch learning

一次接受所有数据,学习模型,之后进行预测。

按技巧分类

贝叶斯学习

利用贝叶斯定理,计算在给定数据条件下模型的条件概率(后验概率\(P(\theta|D)\)),并应用这个原理进行模型估计以及对数据的预测。 \[ P(\theta|D)=\frac{P(\theta)P(D|\theta)}{P(D)} \] 预测时,计算数据对后验概率分布的期望值。 \[ P(x|D)=\int P(x|\theta,D)P(\theta|D)d\theta \]

核方法

核方法不显式定义输入空间到特征空间的映射,而是直接定义核函数,将输入空间的线性不可分问题转化为特征空间的线性可分问题。

模型评估与模型选择

训练误差和测试误差

统计学习方法具体采用的损失函数未必是评估时使用的损失函数。当然,让两者一致是比较理想的。

训练误差和测试误差分别是模型关于训练数据集和测试数据集的平均损失。

当损失函数是 0-1 损失时,测试误差就变成了常见的测试数据集上的误差率(error rate)。

泛化能力

学习方法对未知数据的预测能力称为泛化能力(generalization ability)。

过拟合

过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。

泛化误差

泛化误差就是所学习到的模型的期望风险。如果学到的模型是\(\hat f\) ,用这个模型对未知数据预测的误差即为泛化误差(generalization error)。

如果一种方法学习的模型比另一种方法学习的模型具有更小的泛化误差,那么这种方法就更有效。

泛化误差上界

就是通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

泛化误差上界通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于 0;它是假设空间容量(capacity)的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

证明

Hoeffding不等式(第一版到第二版推导)

训练误差小的模型,其泛化误差也会小。

模型选择

正则化regularization

当选择的模型复杂度过大时,过拟合现象就会发生。

正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。正则化项可以取不同的形式,比如\(L_1\)范数(\({\lambda}||\omega||_1\))、\(L_2\)范数(\(\frac{\lambda}{2}||\omega||^2\))。

正则化的作用是选择经验风险与模型复杂度同时较小的模型,是结构风险最小化策略的实现,在经验风险上加一个正则化项(regularizer)或罚项(penalty term),从而控制模型的复杂度,减小过拟合发生。正则化一般具有如下形式,第1项为经验风险,第2项是正则化项\(\lambda\)为调整两者之间关系的系数。 \[ \begin{align} \min_{f\in F} \frac{1}{N}\sum^N_{i=1}L(y_i,f(x_i))+\lambda J(f) \end{align} \]

交叉验证cross validation

交叉验证的基本想法是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。西瓜书阅读笔记——第2章-模型评估与选择(到2.3.2)

生成模型和判别模型

生成模型(generative model):由数据学习联合概率分布 \(P(X,Y)\) ,然后求出条件概率分布\(P(Y |X)\) 作为预测的模型: \[ P(Y|X)=\frac{P(X,Y)}{P(X)} \] 判别模型(discriminative model):由数据直接学习决策函数 \(f (X )\) 或者条件概率分布 \(P(Y|X )\) 作为预测的模型。

生成方法的特点:

  1. 所需数据量大;
  2. 可以还原出联合概率分布 \(P(X,Y)\) ,而判别方法则不能;
  3. 学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;
  4. 当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用;
  5. 能反映同类数据本身的相似度。

判别方法的特点:

  1. 所需样本少于生成模型;
  2. 直接面对预测,往往学习的准确率更高;
  3. 由于直接学习\(P(Y|X)\)\(f (X)\) ,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题;
  4. 不可反映数据本身的特性。

监督学习应用

分类

在监督学习中,当输出变量Y 取有限个离散值时,预测问题便成为分类问题。

标注

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。

标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。

在自然语言处理中,常见任务比如:命名实体识别。

回归

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型是表示从输入变量到输出变量之间映射的函数。

回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量之间关系的类型即模型的类型,分为线性回归和非线性回归。 回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法(least squares)求解。

习题

主要参考资料:

DataWhale资料-第1章统计学习方法概论

李航《统计学习方法》第2版 第1章课后习题答案

习题1.1

题目

说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为0与1的随机变量上的概率分布。假设观测到伯努利模型\(n\)次独立的数据生成结果,其中\(k\)次的结果为1,这时可以用极大似然估计或贝叶斯估计来估计结果为1的概率。

证明

伯努利模型

伯努利模型是定义在取值为0与1的随机变量上的概率分布。

对于随机变量\(X\),有: \[ \begin{align} P(X=1)=p \\ P(X=0)=1-p \end{align} \] \(p\)为随机变量\(X\)取值为1的概率,\(1-p\)为取0的概率。

由于随机变量\(X\)只有0和1两个值,\(X\)的概率分布函数,即伯努利模型可写为: \[ P_p(X=x)=p^x (1-p)^{(1-x)}, \quad 0 \leqslant p \leqslant 1 \] 则伯努利模型的假设空间为: \[ \mathcal{F}=\{P|P_p(X)=p^x(1-p)^{(1-x)}, p\in [0,1] \} \]

伯努利模型的极大似然估计中统计学习方法三要素

模型:伯努利模型

策略:经验风险最小化。极大似然估计,等价于当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化。

算法:极大化似然:\(\displaystyle \mathop{\arg\max} \limits_{p} L(p|X)= \mathop{\arg\max} \limits_{p} P(X|p)\)

伯努利模型的极大似然估计

极大似然估计的一般流程:

  1. 写出随机变量的概率分布函数;
  2. 写出似然函数;
  3. 对似然函数取对数,得到对数似然函数,并进行化简;
  4. 对参数进行求导,并令导数等于0;
  5. 求解似然函数方程,得到参数的值。
  1. 样本独立同伯努利分布,则\(k\)次结果为1的似然函数为:

\[ \begin{align} L(p∣X)=&P(X∣p)\\=&\prod^n_{i=1}P(x^{(i)}∣p)\\=&p^k(1−p)^{n−k} \end{align} \]

  1. 取对数,得到对数似然函数:

\[ \begin{align} \log L(p∣X)=&\log p^k(1−p)^{n−k}\\ =&\log p^k+\log(1−p)^{n−k}\\ =&k\log p+(n−k)\log (1−p) \end{align} \]

  1. 最大化似然函数求解参数\(p\),令似然函数对\(p\)求导数,值为0。

\[ \begin{align} \frac{∂logL(p)}{∂p}=&\frac{p}{k}−\frac {n−k}{1−p} \\=&\frac {k-np}{p(1−p)}=0 \end{align} \]

  1. 解得:\(p=\frac{k}{n}\),则\(P(X=1)=\frac{k}{n}\)
伯努利模型的贝叶斯估计中统计学习方法三要素

模型:伯努利模型

策略:结构风险最小化。贝叶斯估计中的最大后验概率估计,等价于当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化。

算法:最大化后验概率:\(\displaystyle \mathop{\arg\max} \limits_{p} \pi (p|X)= \displaystyle \mathop{\arg\max} \limits_{p} \frac{P(X|p)\pi(p)}{\int P(X|p)\pi(p)dp}\)

伯努利模型的贝叶斯估计
方法1:求最大后验估计

贝叶斯估计(最大后验估计)的一般步骤

  1. 确定参数\(\theta\)的先验概率\(p(\theta)\)
  2. 根据样本集\(D=\{ x_1, x_2, \ldots, x_n \}\),计算似然函数\(P(D|\theta)\)\(\displaystyle P(D|\theta)=\prod_{i=1}^n P(x_i|D)\)
  3. 利用贝叶斯公式,写出后验概率最大化公式:\(\mathop{\arg\max} \limits_{\theta} P(\theta|D)=\mathop{\arg\max} \limits_{\theta} \frac{P(D|\theta)P(\theta)}{\displaystyle \int \limits_\Theta P(D|\theta) P(\theta) d \theta} = \mathop{\arg\max} \limits_{\theta} P(D|\theta)P(\theta)\)
  4. 利用求导,得到后验概率最大时的参数取值。

如果先验分布和似然函数可以使得先验分布和后验分布有相同的形式,那么就称某参数的共轭先验分布。 一般性的定义如下:设\(θ\)为总体分布中的参数(或参数向量),\(π(θ)\)为先验的概率密度函数,加入由抽取的信息计算得到的后验概率密度函数与\(π(θ)\)具有相同的函数形式,则称\(π(θ)\)\(θ\)的共轭先验分布。 参考:beta分布及共轭Bernoulli分布-先验、后验、预测分布

伯努利分布的先验分布为Beta分布,则此处假设先验分布\(\pi(p)\)为Beta分布。

Beta分布有以下性质:来源

Beta 分布(Beta distribution),是指一组定义在\({\displaystyle (0,1)}\)区间的连续概率分布,亦称Β分布。有两个参数\(\alpha, \beta>0\)

概率密度函数:\(\displaystyle f(x; \alpha, \beta)= \frac{1}{ {\rm B}(\alpha, \beta)}x^{(\alpha-1)}(1-x)^{\beta-1}\),其中\({\rm B}(\alpha, \beta)\)是Beta函数,亦称Β函数,\(\displaystyle {\rm B}(\alpha, \beta) =\int _{0}^{1} x^{\alpha-1}(1-x)^{\beta-1}dx\)

随机变量\(X\)服从参数为\(\alpha, \beta\)的Beta分布记作:\(X \sim {\rm Be}(\alpha, \beta)\)

期望:\(\displaystyle {\rm E}(X) = \frac{\alpha}{\alpha+\beta}\)

与均匀分布关系:当\(\alpha=1, \beta=1\)时,Beta分布就是一个均匀分布。

接下来按照贝叶斯估计(最大后验估计)的一般步骤求解:

  1. 先验概率:\(\pi (p)= \frac{1}{ {\rm B}(\alpha, \beta)}x^{(\alpha-1)}(1-x)^{\beta-1}\)

  2. 似然函数:\(\displaystyle P(D|\theta)=\prod_{i=1}^n P(x_n|D)=p^k(1-p)^{n-k}\)

  3. 最大化后验概率: \[ \begin{align} \mathop{\arg\max} \limits_{\theta} P(\theta|D)=&\mathop{\arg\max} \limits_{\theta} \frac{P(D|\theta)P(\theta)}{P(D)} \\=&\mathop{\arg\max} \limits_{\theta} \frac{P(D|\theta)P(\theta)}{\displaystyle \int \limits_\Theta P(D|\theta) P(\theta) d \theta} \\=& \mathop{\arg\max} \limits_{\theta} P(D|\theta)P(\theta) \\=& \mathop{\arg\max} \limits_{p}P(X|p)\pi(p) \\=& \mathop{\arg\max} \limits_{p}p^k(1-p)^{n-k}\frac{1}{ {\rm B}(\alpha, \beta)}x^{(\alpha-1)}(1-x)^{\beta-1} \\=& \mathop{\arg\max} \limits_{p}\frac{1}{ {\rm B}(\alpha, \beta)}x^{(\alpha-1+k)}(1-x)^{\beta-1+n-k} \end{align} \]

  4. 似然函数求对数,再对\(p\)求导,导数为0,令\(\displaystyle g(p) = \frac{1}{B(\alpha, \beta)} p^{k+\alpha-1} (1-p)^{n-k+\beta-1}\),则: \[ \frac{∂\log g(p)}{∂p}=\frac{1}{B(α,β)}(\frac{k+α−1}{p}−\frac{n−k+\beta−1}{1−p}) \] 令上式等于0,得\(\displaystyle \hat{p} = \frac{k+\alpha-1}{n+\alpha+\beta-2}\),其中\(\alpha, \beta\)为Beta分布的参数。

    所以最大后验概率估计得到\(\displaystyle P(X=1)=\frac{k+\alpha-1}{n+\alpha+\beta-2}\)

方法2:求后验概率分布的期望

贝叶斯估计,利用后验分布的期望(均值)作为参数的估计值的方法,前两步与最大后验概率估计相同,第3、4步如下:

3.利用贝叶斯公式,求\(\theta\)的后验概率:\(\displaystyle P(\theta|D)=\frac{P(D|\theta)P(\theta)}{\displaystyle \int \limits_\Theta P(D|\theta) P(\theta) d \theta}\)

4.计算后验概率分布参数\(\theta\)的期望,并求出贝叶斯估计值:\(\displaystyle \hat{\theta}=\int \limits_{\Theta} \theta \cdot P(\theta|D) d \theta\)

  1. \(\theta\)的后验概率: \[ \begin{align} P(p|X) =&\frac{P(X|p)P(p)}{P(X)} \\=& \frac{P(X|p)\pi(p)}{\displaystyle \int \limits_\Theta P(X|p) \pi(p) d p} \\=&\frac{\frac{1}{ {\rm B}(\alpha, \beta)}p^{(\alpha-1+k)}(1-p)^{\beta-1+n-k}}{\int \frac{1}{ {\rm B}(\alpha, \beta)}p^{(\alpha-1+k)}(1-p)^{\beta-1+n-k}dp} \\=&\frac{p^{(\alpha-1+k)}(1-p)^{\beta-1+n-k} }{\int p^{(\alpha-1+k)}(1-p)^{\beta-1+n-k}dp} \\=&{\frac{1}{ {\rm B}(\alpha, \beta)} }p^{(\alpha-1+k)}(1-p)^{\beta-1+n-k}\\ \sim& Be(k+\alpha,n-k+\beta) \end{align} \]

  2. 求期望,得到以参数的后验概率分布的期望作为贝叶斯估计的参数值\(\hat p\)\[ \begin{align} \hat p=P(X=1)=E(P(p|X))=&E(Be(k+\alpha,n-k+\beta)) \\=&\frac{k+\alpha}{(k+\alpha)+(n-k-\beta)} \\=&\frac{k+\alpha}{n+\alpha+\beta} \end{align} \]

习题1.2

题目

通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

证明

样本集\(D={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)}\)

经验风险最小化定义: \[ \arg \min_{f\in \mathcal F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) \] 模型是条件概率分布\(P_\theta(Y|X)\),损失函数为对数损失函数:\(L(Y,P(Y∣X))=−\log P(Y∣X)\)

则: \[ \begin{align} \arg \min_{f\in \mathcal F}\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))=&\arg \min_{f\in \mathcal F}\frac{1}{N}\sum_D[-\log P(Y|X)] \\ =&\arg \max_{f\in \mathcal F}\frac{1}{N}\sum_D\log P(Y|X)\\ =&\arg \max_{f\in \mathcal F}\frac{1}{N}\log \prod_D P(Y|X) \end{align} \] 极大似然估计:关于参数\(θ\)的似然函数\(L(θ|x)\)(在数值上)等于给定参数\(θ\)后变量\(X\)的概率,对于样本集\(D\)来说,似然函数为: \[ L(\theta)=\prod_DP(Y|X) \] 根据极大似然估计的步骤(对似然函数求log,再求最大化),最大化对数似然函数: \[ \begin{align} \arg \max \log L(\theta)=&\arg \max \log \prod_DP(Y|X) \end{align} \] 即经验风险最小化等价于极大似然估计,得证。

参考资料

李航 统计学习方法 第2版

DataWhale资料-第1章统计学习方法概论