机器学习

【机器学习系列】EM算法第三讲：由Jensen Inequality推导EM算法

本文主要是介绍【机器学习系列】EM算法第三讲：由Jensen Inequality推导EM算法，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

作者：CHEONG

公众号：AI机器学习与知识图谱

研究方向：自然语言处理与知识图谱

阅读本文之前，首先注意以下两点：

1、机器学习系列文章常含有大量公式推导证明，为了更好理解，文章在最开始会给出本文的重要结论，方便最快速度理解本文核心。需要进一步了解推导细节可继续往后看。

2、文中含有大量公式，若读者需要获取含公式原稿Word文档，可关注公众号后回复：EM算法第三讲，本文主要介绍如何通过Jensen Inequality推导出EM算法的优化公式。

一、EM算法解决的问题

通俗些说，EM算法就是求含有隐变量 z z z的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)中的参数 θ \theta θ。对于求参数问题我们很容易想到最大似然估计法MLE，但MLE是针对比较简单的概率模型 p ( x ∣ θ ) p(x|\theta) p(x∣θ)可直接使用MLE求出参数的解析解，MLE参数最大化公式所示：

在这里插入图片描述

对于含有隐变量的概率模型 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)，隐变量 z z z的概率分布是未知的，无法使用MLE求出解析解，因此使用EM算法来求解参数的近似解。对于概率密度 p ( x , z ∣ θ ) p(x,z|\theta) p(x,z∣θ)参数求解公式如下：

在这里插入图片描述

二、由Jensen Inequality推导EM算法

Jesen不等式： 先简单介绍一下Jesen不等式，Jesen不等式和凸函数、凹函数的定义是相关的，下面直接给出结论：

在这里插入图片描述

首先看凸函数Convex Function，凸函数上任意两点的割线位于函数的上方，对应公式为：

在这里插入图片描述

Jesen不等式就是等上式的推广和泛化：

在这里插入图片描述

在概率论中，如果把 λ i \lambda_i λi看成为离散变量 x i x_i xi的概率分布，则上式可写成，其中E是均值：

在这里插入图片描述

而如果 λ i \lambda_i λi看成为连续变量 x i x_i xi的概率分布，则公式可表达成：

在这里插入图片描述

接下来再看凹函数，凹函数上任意两点的割线位于函数的下方，所以只需要将上面的性质的符号反转便是凹函数中具有的性质，直接给出Jesen不等式在凹函数中的体现：

在这里插入图片描述

在了解了Jesen不等式之后，接下来进行EM算法的推导：

在这里插入图片描述

因为log是凹函数，结合Jesen不等式性质有：

在这里插入图片描述

假设：

在这里插入图片描述

将上式两边同时对 Z Z Z求积分

在这里插入图片描述

所以求得：

在这里插入图片描述

至此我们求出了分布 q ( Z ) q(Z) q(Z)，就是后验概率 p ( Z ∣ X , θ ) p(Z|X,\theta) p(Z∣X,θ)，所以有：

在这里插入图片描述

所以对于参数 θ \theta θ

在这里插入图片描述

其中 q ( Z ) q(Z) q(Z)为后验分布 p ( Z ∣ X , θ ) p(Z|X,\theta) p(Z∣X,θ)，至此借助Jesen不等式推导出了EM算法的优化公式。

三、往期精彩

【知识图谱系列】Over-Smoothing 2020综述

【知识图谱系列】基于生成式的知识图谱预训练模型

【知识图谱系列】基于2D卷积的知识图谱嵌入

【知识图谱系列】基于实数或复数空间的知识图谱嵌入

【知识图谱系列】自适应深度和广度图神经网络模型

【知识图谱系列】知识图谱多跳推理之强化学习

【知识图谱系列】知识图谱的神经符号逻辑推理

【知识图谱系列】动态时序知识图谱EvolveGCN

【知识图谱系列】多关系神经网络CompGCN

【知识图谱系列】探索DeepGNN中Over-Smoothing问题

【知识图谱系列】知识图谱表示学习综述 | 近30篇优秀论文串讲

【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

【面经系列】八位硕博大佬的字节之旅

【机器学习系列】机器学习中的两大学派

各大AI研究院共35场NLP算法岗面经奉上

干货 | Attention注意力机制超全综述

干货 | NLP中的十个预训练模型

干货|一文弄懂机器学习中偏差和方差

FastText原理和文本分类实战，看这一篇就够了

Transformer模型细节理解及Tensorflow实现

GPT,GPT2,Bert,Transformer-XL,XLNet论文阅读速递

机器学习算法篇：最大似然估计证明最小二乘法合理性

Word2vec, Fasttext, Glove, Elmo, Bert, Flair训练词向量教程+数据+源码

原稿获取请关注公众号后回复：EM算法第三讲，原创不易，有用就点个赞呀！

这篇关于【机器学习系列】EM算法第三讲：由Jensen Inequality推导EM算法的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

您可能喜欢

栏目导航

前端开发

HTML5教程

CSS教程

Javascript

jQuery教程

AJAX教程

Node.js教程

XML教程

正则表达式

后端开发

Go教程

C/C++教程

消息队列MQ

Net Core教程

Asp.net教程

Java教程

PHP教程

移动端开发

微信公众号开发

小程序开发

Swift教程

IOS教程

Kotlin教程

Android开发

数据库

Redis教程

MongoDB教程

PostgreSQL教程

Oracle教程

MariaDB教程

SqLite教程

MySql教程

SqlServer教程

服务器运维

Kubernetes

Docker容器

linux shell

Nginx教程

网站安全

PowerShell教程

Linux教程

人工智能

TensorFlow教程

Python教程

机器学习

人工智能学习

区块链

区块链技术

游戏开发

游戏编程

Unity3D教程

网站运营

网站策划

网站优化

建站知识

大数据/云计算

云计算

Hadoop教程

软件工程

软件/开发工具使用

Git教程

资讯