《统计学习方法》阅读笔记——第4章-朴素贝叶斯法
统计学习方法笔记——第4章-朴素贝叶斯法
朴素贝叶斯(naive Baye)法
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法,与贝叶斯估计(Bayesian estimation)是不同的概念。
- 先基于特征条件独立假设,学习输入输出的联合概率分布
(是一种生成方法);- 计算先验概率
和条件概率 ; - 根据给定的实例,利用贝叶斯公式计算
;
- 计算先验概率
- 然后基于此模型,对给定的输入
,利用贝叶斯定理求出后验概率最大的输出 。- 根据
,利用贝叶斯公式计算输入的 ; - 取最大的
为输入的类别: 。
- 根据
接下来介绍朴素贝叶斯方法中如何求解
生成式模型generative models和判别式模型discriminative models
判别式模型
给定
生成式模型
先对联合概率
朴素贝叶斯基本方法
朴素贝叶斯基于属性条件独立性假设从而简单建模
朴素贝叶斯法的基本假设是条件独立性。假设每个特征相互独立,则有后验概率为:
由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易于实现。其缺点是分类的性能不一定很高。
朴素贝叶斯将后验概率最大的类作为
接下来的问题是如何求解
后验概率最大化的含义
朴素贝叶斯法的后验概率最大化等价于0-1损失函数时的期望风险最小化。
证明
朴素贝叶斯法的参数估计
在朴素贝叶斯法中,学习意味着估计
极大似然估计
极大似然估计的目的,就是为了找到似然最大时所对应的参数。
计算先验分布
类先验概率
计算条件概率分布
如果属性
贝叶斯估计
因为
解决这一问题的方法是采用贝叶斯估计。贝叶斯估计中用以下方法计算先验分布和条件概率分布。
计算先验分布
在估计概率值时通常要进行"平滑"(smoothing),下式中
当
当
计算条件概率分布
如果属性
习题
习题4.1
题目
用极大似然估计法推出朴素贝叶斯法中的概率估计公式(4.8)及公式 (4.9)。
公式(4.8):
解
极大似然估计步骤回顾
- 写出随机变量的概率分布函数;
- 写出似然函数;
- 对似然函数取对数,得到对数似然函数,并进行化简;
- 对参数进行求导,并令导数等于0;
- 求解似然函数方程,得到参数的值。
似然与概率
假设X是一个离散型的随机变量,它的概率分布p取决于参数θ,那么它的似然函数定义为:
推导公式(4.8)
根据朴素贝叶斯法的前提假设,
满足独立同分布。假设 概率为 (也为求的参数),其中 在随机变量 中出现的次数 ,则概率为 ;似然函数为:
。对似然函数取对数,得到对数似然函数为:
对参数
求导,并求解导数为0时的 值:求得:
推导公式(4.9)
与上述证明类似,此时在条件
下,随机变量 满足条件独立性,假设 概率为 ,其中 在随机变量 中出现的次数 , 和 同时出现的次数 ,则概率为 ;似然函数为:
;对似然函数取对数,得到对数似然函数为:
对参数
求导,并求解导数为0时的 值:求得:
习题4.2
题目
用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)。
公式(4.10):
解
贝叶斯估计一般流程回顾
- 确定参数
的先验概率 ; - 根据样本集
,计算似然函数 : ; - 利用贝叶斯公式,写出后验概率最大化公式:
; - 利用求导,得到后验概率最大时的参数取值。
推导公式(4.10)
根据朴素贝叶斯法的基本方法,训练数据集
,假设:随机变量
出现 的次数为 ,即 ,可知 ( 总共有 个);假设随机变量
服从参数为 的Dirichlet分布:
为什么假设
的概率服从Dirichlet分布?答:原因如下:
- 首先,根据PRML第B.4章节,Dirichlet分布是Beta分布的推广。Beta分布是二项式分布的共轭分布,Dirichlet分布是多项式分布的共轭分布。Dirichlet分布可以看作是“分布的分布”;
- 又因为,Beta分布与Dirichlet分布都是先验共轭的,意味着先验概率和后验概率属于同一个分布。 当假设为Beta分布或者Dirichlet分布时,通过获得大量的观测数据,进行数据分布的调整,使得计算出来的概率越来越接近真实值。
- 因此,对于一个概率未知的事件,Beta分布或Dirichlet分布能作为表示该事件发生的概率的概率分布。
根据假设(2)和Dirichlet分布的定义,可得先验概率为:
得到似然函数:由
,记 ,可得似然函数为得到似然函数:结合贝叶斯公式,求
的后验概率分布,可得 上式表明,后验概率分布 也服从Dirichlet分布。得到随机变量
的期望:根据后验概率分布 和假设(1),求随机变量 的期望,可得: 随机变量 取 的期望,可得 。
推导公式(4.11)
与上述推导同理,此时有:
假设:
出现
的次数为 ,即 ,可知 (总共 个);假设随机变量
服从参数为 的Dirichlet分布;
根据假设(2)和Dirichlet分布的定义,可得先验概率为:
得到似然函数:由
,记 ,可得似然函数为:得到后验概率分布:得到似然函数:结合贝叶斯公式,求
的后验概率分布,可得 表明,后验概率分布 也服从Dirichlet分布。得到随机变量
的期望:根据后验概率分布 和假设(1),求随机变量 的期望,可得:随机变量
取 的期望,可得 。