算法进阶--最大似然，赔率，Fuzzywuzzy库，主成分分析，onehot

本文主要是介绍算法进阶--最大似然，赔率，Fuzzywuzzy库，主成分分析，onehot，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

算法进阶--第一天

- 故地重游之最大似然估计
- 赌徒之赔率
- Fuzzywuzzy库-Levenshtein distance
- 主成分分析(PCA)
- One-hot编码

故地重游之最大似然估计

首先从贝叶斯公式开始：
给定某些样本D，在这些样本中计算某结论A1,A2…An出现的概率，即P(Ai|D),若求maxP(Ai|D)，则有以下式子：

– 当样本给定时，P(D)是常数，可以忽略

m a x P ( A i ∣ D ) = m a x P ( D ∣ A i ) P ( A i ) P ( D ) = m a x ( P ( D ∣ A i ) P ( A i ) ) maxP(A_i|D)=max\frac{P(D|A_i)P(A_i)}{P(D)}=max(P(D|A_i)P(A_i)) maxP(Ai∣D)=maxP(D)P(D∣Ai)P(Ai)=max(P(D∣Ai)P(Ai))
– 若A1，A2，…An的先验概率相等（或者近似），则得到以下结论：
m a x P ( A i ∣ D ) → m a x P ( D ∣ A i ) maxP(A_i|D)→maxP(D|A_i) maxP(Ai∣D)→maxP(D∣Ai)
–也就是说，问题从在求给定样本D下, A 1 , A 2 , . . . A i A_1,A_2,...A_i A1,A2,...Ai中哪一个结论的发生的可能性最大，转变为给定一个结论 A i A_i Ai，该样本D产生的概率最大（最大似然估计）。

最大似然估计（MLE）：
– 设总体分布为 f ( x , θ ) f(x,\theta) f(x,θ), X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn为该总体采样得到的样本。因为 X 1 , X 2 . . . X n X_1,X_2...X_n X1,X2...Xn独立同分布，故他们的联合密度函数为：
L ( x 1 , x 2 . . . . x n ) ; θ 1 , θ 2... θ k = ∏ i = 1 n f ( x i ; θ 1 , θ 2... θ k ) L(x_1,x_2....x_n);\theta1,\theta2...\theta k=\prod _{i=1}^{n}f(x_i;\theta1,\theta2...\theta k) L(x1,x2....xn);θ1,θ2...θk=i=1∏nf(xi;θ1,θ2...θk)
–其中， θ \theta θ被看做固定但未知的参数，同时因为样本已经存在，则可以将样本看成是固定的，即将 L ( x , θ ) L(x,\theta) L(x,θ)看成是关于 θ \theta θ的函数，这个函数就叫做似然函数，求参数 θ \theta θ的值，使得似然函数取最大值，这种方法就要做最大似然估计.
最大似然估计的求解：等式两边取对数，求偏导

赌徒之赔率

赔率：假设在一个赌球中，买甲队赢的赔率是3，乙队赢的概率为4，假设一张票为10元，若张三买甲队赢，则张三赚20元（30-10，其中10元给庄家），而庄家亏10元（10-20，收了张三10元再赔给张三20元）
公平赔率：
–如图：

	甲球队	乙球队
败率( Y )	0.8	0.2
赔率( P )	1.25	5

假设票价为一元，所有人中，有a人买甲球队赢，b人买乙球队赢，则庄家在比赛前收入为（a+b）元，同时，庄家的赔付期望为：
E ( y ) = ∑ Y i P i = 0.8 × 1.25 × a + 0.2 × 5 × b = a + b E(y)=\sum{Y_i}{P_i}=0.8×1.25×a+0.2×5×b=a+b E(y)=∑YiPi=0.8×1.25×a+0.2×5×b=a+b
由此可见，庄家不亏不赚，故当赔率为 P = 1 Y P=\frac{1}{Y} P=Y1时，为公平赔率

–在实际中，庄家会将公平赔率乘以某一个小于1的系数 α \alpha α，即得到真实赔率：
y = α ⋅ P f a i r y=\alpha \cdot P_{fair} y=α⋅Pfair

Fuzzywuzzy库-Levenshtein distance

通过编辑距离来做模糊查询

API：Fuzzywuzzy

主成分分析(PCA)

大佬讲解的很牛逼了，直接进去啃就完事了

参考视频：用最直观的方式告诉你：什么是主成分分析PCA

参考文章：github

One-hot编码

定义:又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效.
在机器学习中，一个特征会有多个值，也就是多个状态，如性别，有男或者女，财富分为：贫穷，温饱，小康，富裕，四个状态，如图：
–将性别用数字1,2表示男，女，财富用1，2，3，4分别代表着贫穷，温饱，小康，富裕四个状态

	性别	财富
样本一	1	4
样本二	2	2
样本三	1	1
样本四	2	3

–如果转换成用one-hot编码，则有下图:

	性别男	性别女	贫穷	温饱	小康	富裕
样本一	1	0	0	0	0	1
样本二	0	1	0	1	0	0
样本三	1	0	1	0	0	0
样本四	0	1	0	0	1	0

疑问之为啥要使用one-hot编码：https://www.likecs.com/show-64021.html

这篇关于算法进阶--最大似然，赔率，Fuzzywuzzy库，主成分分析，onehot的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

Java教程