$H = -\sum_{i = 1}^{n} p(x_{i}) \log p(x_{i})$
$n$ 是分类的数目,熵越大代表随机变量 $X$ 的不确定性越大。
可知 $0 \leqslant H(P) \leqslant \log n$
条件熵 $H(Y|X)$ 表示已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。
定义 $H(Y|X)=\sum_{i=1}^{n} p_{i} H(Y|X=x_{i})$
这里 $p_{i}=P(X=x_{i})$