第四章机器学习之贝叶斯分类

本文主要是介绍第四章机器学习之贝叶斯分类，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

第四章机器学习之贝叶斯分类

机器学习的简单介绍
分类方法之贝叶斯
- 条件概率
- 乘法定理
- 全概率公式
- 贝叶斯公式
- 贝叶斯分类
- 贝叶斯分类优缺点
练习

机器学习的简单介绍

推荐周志华教授的相关链接：点我就行

机器学习的基本流程：

学习方法分类：

监督学习

特点：使用有标签数据进行学习。
典型场景：分类、回归。

非监督学习

特点：使用无标签数据进行学习
典型场景：聚类

半监督学习

特点：使用数据的一部分是有标签的，另一部分没有标签。
典型场景：海量数据分类。

强化学习

特点：使用无标签但有反馈的数据进行学习。
典型场景：策略推理。

完整的机器学习过程实施：

数据预处理：数据清洗、数据集成、数据采样
特征工程：特征编码、特征选择、特征降维、规范化
数据建模：回归问题、分类问题、聚类问题、其他问题
结果评估：拟合度量、准确率、召回率、F1值、PR拟合曲线等

在这里插入图片描述
过拟合和欠拟合对比：

通俗对比：欠拟合学得太少，分得太粗糙；过拟合学得太多太细，拿着放大镜看世界，看到的都是差异看不到相同点。

机器学习总结:

有监督学习：有x有y（y即label标签）

（1）分类：预测结果是离散值，例如颜色和形状；贝
叶斯、KNN、决策树、SVM
（2）回归：预测结果是连续值（断断续续），例如气
温，体温，血压等；线性回归，逻辑回归

无监督学习：有x没有y(只有数据，没有标签)

（1）聚类：将相似的数据进行分堆；Kmeans
（2）降维：用于简化数据，减少训练开销；PCA,LDA

分类方法之贝叶斯

条件概率

P ( A ∣ B ) = P ( A B ) P ( B ) P(A|B)=\frac{P(AB)}{P(B)} P(A∣B)=P(B)P(AB)
表示事件B发生后A发生的概率。

乘法定理

设P(A)>0,则有P(AB)=P(B|A)P(A)=P(A|B)P(B).设A,B,C为事件，且P(AB)>0，则有：
P ( A B C ) = P ( A ) P ( B ∣ A ) P ( C ∣ A B ) P(ABC)=P(A)P(B|A)P(C|AB) P(ABC)=P(A)P(B∣A)P(C∣AB)

全概率公式

定义：设M为试验E的样本空间，A为E的事件，B₁，B₂，…,B_n为M的一个划分，且P(B_i)>0(i=1,2,…,n)则
P ( A ) = P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) + . . . + P ( A ∣ B n ) P ( B n ) = ∑ i = 1 n P ( B ) P ( A ∣ B i ) P(A)=P(A|B~1~)P(B1)+P(A|B~2~)P(B~2~)+...+P(A|B~n~)P(B~n~)=\sum_{i=1}^{n}{P(B)P(A|B~i~)} P(A)=P(A∣B 1 )P(B1)+P(A∣B 2 )P(B 2 )+...+P(A∣B n )P(B n )=i=1∑nP(B)P(A∣B i )

贝叶斯公式

定义：设 Ω \Omega Ω为试验E 的样本空间,A 为E的事件,B₁, B₂,…, B_n为 Ω \Omega Ω的一个划分，且P(A)>0,P(B_i)>0(i=1,2,…,n)则
P ( B i ∣ A ) = P ( A ∣ B i ) P ( B i ) ∑ j = 1 n P ( A ∣ B j ) P ( B j ) , i = 1 , 2 , . . . , n P(B~i~|A)=\frac{P(A|B~i~)P(B~i~)}{\sum_{j=1}^{n}{P(A|B~j~)P(B~j~)}}{,}{\;\;\;\;i=1,2,...,n} P(B i ∣A)=∑j=1nP(A∣B j )P(B j )P(A∣B i )P(B i ),i=1,2,...,n

贝叶斯公式的应用：

某电子设备制造厂所用的元件是由三家元件制造厂提供的根据以往的记录有以下的数据:

元件制造厂次品率提供元件的份额
1 0.02 0.15
2 0.01 0.80
3 0.03 0.05

设这三家工厂的产品在仓库中是均匀混合的且无区别的标志.
（1）在仓库中随机地取一只元件求它是次品的概率；
（2）在仓库中随机地取一只元件若已知取到的是次品为分析此次品出自何厂求此次品出由三家工厂生产的概率分别是多少.

元件制造厂	次品率	提供元件的份额
1	0.02	0.15
2	0.01	0.80
3	0.03	0.05

解：设 A 表示 " 取到的是一只次品"，B_i表示 " 所取到的产品是由第 i 家工厂提供的".则B₁,B₂,B₃是样本空间 Ω \Omega Ω的一个划分，且P(B₁)=0.15,P(B₂)=0.80,P(B₃)=0.05.
P(A|B₁)=0.02,P(A|B₂)=0.01,P(A|B₃)=0.03
(1)由全概率公式得P(A)=P(A)=P(A|B₁)P(B1)+P(A|B₂)P(B₂)+P(A|B₃)P(B₃)=0.0125.
(2)由贝叶斯公式得
P ( B 1 ∣ A ) = P ( A ∣ B 1 ) P ( B 1 ) P ( A ) = 0.24 P(B1|A)=\frac{P(A|B1)P(B1)}{P(A)}=0.24 P(B1∣A)=P(A)P(A∣B1)P(B1)=0.24
同理可得P(B2|A)=0.64,P(B3|A)=0.12.
故这只次品来自第二家工厂的可能性最大。

贝叶斯分类

定义：设X是类标号未知的数据样本。设H为某种假定（如数据样本X属于某特定的类C）。对于分类问题，我们希望确定P(H|X)，即给定观测数据样本X，假定H成立的概率。贝叶斯定理给出了如下计算P(H|X)的简单有效的方法：
P ( H ∣ X ) = P ( X ∣ H ) P ( H ) P ( X ) P(H|X)=\frac{P(X|H)P(H)}{P(X)} P(H∣X)=P(X)P(X∣H)P(H)
P(H)是先验概率,或称H的先验概率。
先验概率：根据历史资料统计或主观经验判断所定的概率.

P(H| X )是后验概率，或称条件X下H的后验概率.
后验概率：某个特定条件下具体事物发生的概率.

举例：假设：玩lol中80%是男性，20%是小姐姐；不玩lol中20%是男性，80%是小姐姐，相应的条件概率分布：
P(Y=男性|X=玩lol)=0.8，P(Y=小姐姐|X=玩lol)=0.2
P(Y=男性|X=不玩lol)=0.2，P(Y=小姐姐|X=不玩lol)=0.8
则在已知玩家为男性的情况下，他是lol玩家的概率是多少？（贝叶斯准则），则P(X=玩lol|Y=男性)为X的后验概率（ posterior probability ），它是在观察到事件Y发生后得到的。

朴素贝叶斯分类的工作过程如下：

(1) 每个数据样本用一个 n 维特征向量 X= {x1
，x2，……，xn}表示，分别描述对n个属性A1，A2，……，An样本的n个度量。

(2)假定有m个类C1，C2，…，Cm，给定一个未知的数据样本X（即没有类标号），分类器将预测X属于具有最高后验概率（条件X下）的类。也就是说，朴素贝叶斯分类将未知的样本分配给类Ci（1≤i≤m）当且仅当P(Ci|X)> P(Cj|X)，对任意的j=1，2，…，m，j≠i。即最大化P(Ci|X)。

(3)根据贝叶斯定理
由于P(X)对于所有类为常数，只需要P(X|Ci)*P(Ci)最大
即可。
如果Ci类的先验概率未知，则通常假定这些类是等概率
的，即P(C1)=P(C2)=…=P(Cm)，因此问题就转换为对
P(X|Ci)的最大化。否则，需要最大化P(X|Ci)*P(Ci)。
注意，类的先验概率可以用P(Ci)=si/s计算，其中si是类Ci中的训练样本数，而s是训练样本总数。

(4) 给定具有许多属性的样本数据集，计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销，可以做类条件独立的朴素假定.
给定样本类别的条件下，假定样本属性值相互条件独立，即在属性间，不存在依赖关系。这样(联合概率分布)
P ( X ∣ C i ) = ∏ k = 1 n P ( x k ∣ C i ) P(X|C~i~)=\prod_{k=1}^{n}{P(x~k~|C~i~)} P(X∣C i )=k=1∏nP(x k ∣C i )

(5) 对未知样本X分类，也就是对每个类Ci，计算P(X|Ci)*P(Ci)。
样本X被指派到类Ci，当且仅当P(Ci|X)> P(Cj|X)， 1≤j≤m ， j≠i ，换言之， X 被指派到其P(X|Ci)*P(Ci)最大的类。

应用例：“打网球”的决定
在这里插入图片描述
统计结果：

对下面的情况做出决策：
在这里插入图片描述

未知样本：E=E1 ⋂ \bigcap ⋂E2 ⋂ \bigcap ⋂E3 ⋂ \bigcap ⋂E4
分类：P(D=no|E)>P(D=yes|E)
贝叶斯公式：P(D|E)= P ( D E ) P ( E ) = P ( E ∣ D ) P ( D ) P ( E ) \frac{P(DE)}{P(E)}=\frac{P(E|D)P(D)}{P(E)} P(E)P(DE)=P(E)P(E∣D)P(D)
在这里插入图片描述

贝叶斯分类优缺点

优点:

• 可以和决策树、神经网络分类算法相媲美，能运用于大型数据库
• 方法简单，分类准确率高，速度快，所需估计的参数少，对于缺失数据不敏感

缺点：

• 假设一个属性对分类的影响独立于其他的属性值，这往往不成立(即实际上难以满足的相互独立)
• 需要知道先验概率

练习

判断下面对错。

1.分类任务是预测连续值。（错）
2.回归任务是预测连续值。（对）
3.聚类是有标签学习。（错）
4.降维可用于简化数据。（对）

有一批同一型号的产品,已知其中由一厂生产的占 30% , 二厂生产的占 50% , 三厂生产的占 20%, 又知这三个厂的产品次品率分别为2% , 1%, 1%,问从这批产品中任取一件是次品的概率是多少？

解：设事件 A 为“任取一件为次品”,
事件 B i 为" 任取一件为i 厂的产品" ,i = 1,2,3.
B₁ ⋃ \bigcup ⋃ B₂ ⋃ \bigcup ⋃ B₃ = Ω \Omega Ω,B_iB_j= ∅ \empty ∅,i,j=1,2,3
由全概率公式得:
P(A)=P(B₁)P(A|B₁)+P(B₂)P(A|B₂)+P(B₃)P(A|B₃)
P(B₁)=0.3,P(B₂)=0.5,P(B₃)=0.2
P(A|B₁)=0.02，P(A|B₂)=0.01,P(A|B₃)=0.01,
故P(A)=0.013.

设某公路上经过的货车与客车的数量之比为2:1，货车中途停车修理的概率为0.02，客车为0.01，现有一辆汽车中途停车修理，求该汽车是货车的概率。

解：设事件A为停车修理，事件B1为货车，B2为客车
则P(B1)=2/3,P(B2)=1/3,P(A|B1)=0.02,P(A|B2)=0.01,
则 P ( B 1 ∣ A ) = P ( B 1 ) P ( A ∣ B 1 ) P ( A ∣ B 1 ) P ( B 1 ) + P ( A ∣ B 2 ) P ( B 2 ) = 0.8 P(B1|A)=\frac{P(B1)P(A|B1)}{P(A|B1)P(B1)+P(A|B2)P(B2)}=0.8 P(B1∣A)=P(A∣B1)P(B1)+P(A∣B2)P(B2)P(B1)P(A∣B1)=0.8

这篇关于第四章机器学习之贝叶斯分类的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

机器学习

第四章机器学习之贝叶斯分类

第四章机器学习之贝叶斯分类

机器学习的简单介绍

分类方法之贝叶斯

条件概率

乘法定理

全概率公式

贝叶斯公式

贝叶斯分类

贝叶斯分类优缺点

练习

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯

第四章 机器学习之贝叶斯分类

第四章 机器学习之贝叶斯分类

机器学习的简单介绍

分类方法之贝叶斯

条件概率

乘法定理

全概率公式

贝叶斯公式

贝叶斯分类

贝叶斯分类优缺点

练习

前端开发

后端开发

移动端开发

数据库

服务器运维

人工智能

区块链

游戏开发

网站运营

大数据/云计算

软件工程

软件/开发工具使用

资讯

第四章机器学习之贝叶斯分类

第四章机器学习之贝叶斯分类