8 深入了解:指数族分布_伯努利分布是指数家族吗-程序员宅基地

技术标签: 机器学习  统计学  机器学习白板推导  

1 背景

指数族是一类分布,包括高斯分布、伯努利分布、二项分布、泊松分布、Beta 分布、Dirichlet 分布、Gamma 分布等一系列分布。指数族分布可以写为统一的形式: p ( x ∣ η ) = h ( x ) exp ⁡ ( η T ϕ ( x ) − A ( η ) ) = 1 exp ⁡ ( A ( η ) ) h ( x ) exp ⁡ ( η T ϕ ( x ) ) p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x)) p(xη)=h(x)exp(ηTϕ(x)A(η))=exp(A(η))1h(x)exp(ηTϕ(x)) 其中, η \eta η 是参数向量, A ( η ) A(\eta) A(η) 是对数配分函数(归一化因子)。

1.1 三大性质

  1. 充分统计量
    在上面的式子中, ϕ ( x ) \phi(x) ϕ(x) 叫做充分统计量,包含样本集合所有的信息,例如高斯分布中的均值和方差。充分统计量在在线学习中有应用,对于一个数据集,只需要记录样本的充分统计量即可。
    例如,对 p ( x ) p(x) p(x)的估计: p ( x ∣ θ ) = 1 z p ^ ( x ∣ θ ) p(x|\theta)=\frac{1}{z}\hat{p}(x|\theta) p(xθ)=z1p^(xθ)
    其中, z z z是归一化因子,也叫配分函数。我们知道, p ( x ∣ θ ) p(x|\theta) p(xθ)是概率分布,对 x x x进行积分为1,此时 z z z相当于常数,于是可得下式:
    1 = ∫ x p ( x ∣ θ ) d x = 1 z ∫ P ^ ( x ∣ θ ) d x = 1 z ∫ p ^ ( x ∣ θ ) d x \begin{aligned} 1=\int_{x} p(x | \theta) d x &=\frac{1}{z} \int \hat{P}(x | \theta) d x \\ &=\frac{1}{z} \int \hat{p}(x | \theta) d x \end{aligned} 1=xp(xθ)dx=z1P^(xθ)dx=z1p^(xθ)dx
    此时,将指数族分布进行整理:
    p ( x ∣ η ) = h ( x ) exp ⁡ ( η T ϕ ( x ) − A ( η ) ) = 1 exp ⁡ ( A ( η ) ) h ( x ) exp ⁡ ( η T ϕ ( x ) ) = 1 z p ^ ( x ∣ θ ) \begin{aligned} p(x|\eta) &=h(x)\exp(\eta^T\phi(x)-A(\eta)) \\ &=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x)) \\ &=\frac{1}{z}\hat{p}(x|\theta) \end{aligned} p(xη)=h(x)exp(ηTϕ(x)A(η))=exp(A(η))1h(x)exp(ηTϕ(x))=z1p^(xθ)
    可得: e x p ( A ( η ) ) = z A ( η ) = l o g z exp(A(\eta))=z\\A(\eta)=logz exp(A(η))=zA(η)=logz,所以 A ( η ) A(\eta) A(η)叫做配分函数。
    进一步,以高斯分布为例,令: ϕ ( x ) = ( ∑ i = 1 N x i ∑ i = 1 N x i 2 ) \phi(x)=\left(\begin{array}{l} \sum_{i=1}^{N} x_{i} \\ \sum_{i=1}^{N} x_{i}^{2} \end{array}\right) ϕ(x)=(i=1Nxii=1Nxi2)
    统计“:即表示对样本的统计值
    充分“:通过上面两个统计值,可以求得均值和方差,进而可以获得高斯分布表达式。
    充分统计量在在线学习中有应用,对于一个数据集,只需要记录样本的充分统计量即可。
  2. 共轭先验
    P ( z ∣ x ) = P ( x ∣ z ) p ( z ) ∫ z P ( x ∣ z ) P ( z ) d z P(z | x)=\frac{P(x | z) p(z)}{\int_{z} P(x | z) P(z) d z} P(zx)=zP(xz)P(z)dzP(xz)p(z)

我们知道,上式中分母积分十分难计算,为了解决积分难计算的问题,一个思路是能否绕过积分呢?我们知道存在如下关系 P ( z ∣ x ) ∝ p ( x ∣ z ) p ( z ) P(z | x) \propto p(x | z) p(z) P(zx)p(xz)p(z),其中 P ( z ∣ x ) P(z|x) P(zx)是后验分布, p ( x ∣ z ) p(x|z) p(xz)是似然, p ( z ) p(z) p(z)是先验。

在已知似然函数的情况下,选取什么样的先验分布能够使得后验分布与先验分布具有相同的数学形式呢?

如果存在这样的⼀个先验分布,那么上⼀时刻的输出可以作为下⼀时刻计算的先验分布,那么这样整个计算就可
以形成闭环。也就是说如果后验分布和先验分布是同分布,此时我们称先验分布和后验分布是共轭分布,且称先
验分布是似然函数的共轭先验
。⽐如⾼斯分布家族在⾼斯似然函数下与其⾃身共轭,也叫⾃共轭。

共轭先验的好处主要在于代数上的⽅便性,可以直接给出后验分布的封闭形式,否则的话只能做数值计算。共轭
先验也有助于活的关于似然函数如何更新先验分布的直观印象。

对于一个模型分布假设(似然),那么我们在求解中,常常需要寻找一个共轭先验,使得先验与后验的形式相同,例如选取似然是二项分布,可取先验是 Beta 分布,那么后验也是 Beta 分布。指数族分布常常具有共轭的性质,于是我们在模型选择以及推断具有很大的便利。

  1. 最大熵(无信息先验)
    ⽆信息先验是指先验分布尽可能对对后验分布产⽣⼩的影响,即尽可能的随机性,其实就是最⼤熵原理。

1.2 三大重要应用

  • 广义线性模型
  • 概率图模型
  • 变分推断

观察到指数族分布的表达式类似线性模型,事实上,指数族分布很自然地导出广义线性模型 y = f ( w T x ) y ∣ x ∼ E x p F a m i l y y=f(w^Tx)\\ \\y|x\sim Exp Family y=f(wTx)yxExpFamily 在更复杂的概率图模型中,例如在无向图模型中如受限玻尔兹曼机中,指数族分布也扮演着重要作用。

在推断的算法中,例如变分推断中,指数族分布也会大大简化计算。

2 高斯分布的指数形式

一维高斯分布可以写成: p ( x ∣ θ ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) p(xθ)=2π σ1exp(2σ2(xμ)2)
其中, θ = ( μ , σ 2 ) \theta=(\mu,\sigma^2) θ=(μ,σ2),对上式进行改写:
P ( x ∣ θ ) = 1 2 π σ exp ⁡ ( − ( x − μ ) 2 2 σ 2 ) = 1 2 π σ exp ⁡ ( − 1 2 σ 2 ( x 2 − 2 x μ + μ 2 ) ) = exp ⁡ log ⁡ ( 2 x σ 2 ) − 1 2 ⋅ exp ⁡ { − 1 2 σ 2 ( x 2 − 2 μ x ) − u 2 2 σ 2 } = exp ⁡ log ⁡ ( 2 x σ 2 ) − 1 2 ⋅ exp ⁡ ( − 1 2 σ 2 ( − 2 μ 1 ) ( x x 2 ) − μ 2 2 σ 2 ) = exp ⁡ { ( μ σ 2 − 1 2 σ 2 ) ( x x 2 ) − ( u 2 2 σ 2 + 1 2 log ⁡ ( 2 π σ 2 ) ) } \begin{aligned} P(x | \theta) &=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right) \\ &=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{1}{2 \sigma^{2}}\left(x^{2}-2 x \mu+\mu^{2}\right)\right) \\ &=\exp \log \left(2 x \sigma^{2}\right)^{-\frac{1}{2}} \cdot \exp \left\{-\frac{1}{2 \sigma^{2}}\left(x^{2}-2 \mu x\right)-\frac{u^{2}}{2 \sigma^{2}}\right\} \\ &=\exp \log \left(2 x \sigma^{2}\right)^{-\frac{1}{2}} \cdot \exp \left(-\frac{1}{2 \sigma^{2}}(-2 \mu \quad 1)\left(\begin{array}{c}x \\ x^2\end{array}\right)-\frac{\mu^{2}}{2 \sigma^{2}}\right) \\ &=\exp \left\{\left(\frac{\mu}{\sigma^{2}} \quad-\frac{1}{2 \sigma^{2}}\right)\left(\begin{array}{c}x \\ x^2\end{array}\right)-\left(\frac{u^{2}}{2 \sigma^{2}}+\frac{1}{2} \log \left(2 \pi \sigma^{2}\right)\right)\right\} \end{aligned} P(xθ)=2π σ1exp(2σ2(xμ)2)=2π σ1exp(2σ21(x22xμ+μ2))=explog(2xσ2)21exp{ 2σ21(x22μx)2σ2u2}=explog(2xσ2)21exp(2σ21(2μ1)(xx2)2σ2μ2)=exp{ (σ2μ2σ21)(xx2)(2σ2u2+21log(2πσ2))}
将上式与指数族分布进行对应,可得,
⇒ η = ( η 1 η 2 ) = ( μ σ 2 − 1 2 σ 2 ) ⇒ { μ = − η 1 2 η 2 σ 2 = − 1 2 η 2 ϕ ( x ) = ( x x 2 ) A ( η ) = u 2 2 σ 2 + 1 2 log ⁡ ( 2 π σ 2 ) = η 1 2 4 η 2 + 1 2 log ⁡ ( − π 2 η 2 ) ⇒ P ( x ∣ θ ) = 1 ⋅ exp ⁡ { η ⊤ ϕ ( x ) − A ( η ) } \begin{array}{l} \Rightarrow \eta=\left(\begin{array}{l} \eta_{1} \\ \eta_{2} \end{array}\right)=\left(\begin{array}{c} \frac{\mu}{ \sigma^{2}} \\ -\frac{1}{2 \sigma^{2}} \end{array}\right) \Rightarrow\left\{\begin{array}{l} \mu=-\frac{\eta_{1}}{2 \eta_{2}} \\ \sigma^{2}=-\frac{1}{2 \eta_{2}} \end{array}\right. \\ \\ \begin{aligned} \phi(x)=\left(\begin{array}{l} x \\ x^{2} \end{array}\right) \\ \\ A(\eta)=\frac{u^{2}}{2 \sigma^{2}}+\frac{1}{2} \log \left(2\pi \sigma^{2}\right) \\ \\ =\frac{\eta_{1}^{2}}{4 \eta_{2}}+\frac{1}{2} \log \left(-\frac{\pi}{2 \eta_{2}}\right) \end{aligned} \\ \\ \Rightarrow P(x | \theta)=1 \cdot \exp \left\{\eta^{\top} \phi(x)-A(\eta)\right\} \end{array} η=(η1η2)=(σ2μ2σ21){ μ=2η2η1σ2=2η21ϕ(x)=(xx2)A(η)=2σ2u2+21log(2πσ2)=4η2η12+21log(2η2π)P(xθ)=1exp{ ηϕ(x)A(η)}

3 对数配分函数和充分统计量的关系

对概率密度函数 p ( x ∣ η ) = h ( x ) exp ⁡ ( η T ϕ ( x ) − A ( η ) ) = 1 exp ⁡ ( A ( η ) ) h ( x ) exp ⁡ ( η T ϕ ( x ) ) p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x)) p(xη)=h(x)exp(ηTϕ(x)A(η))=exp(A(η))1h(x)exp(ηTϕ(x)) 求积分,积分值为1,将 1 exp ⁡ ( A ( η ) ) \frac{1}{\exp(A(\eta))} exp(A(η))1看作常数,那么可得下式:
exp ⁡ ( A ( η ) ) = ∫ h ( x ) exp ⁡ ( η T ϕ ( x ) ) d x \exp(A(\eta))=\int h(x)\exp(\eta^T\phi(x))dx exp(A(η))=h(x)exp(ηTϕ(x))dx
两边对参数求导: exp ⁡ ( A ( η ) ) A ′ ( η ) = ∫ h ( x ) exp ⁡ ( η T ϕ ( x ) ) ϕ ( x ) d x \exp(A(\eta))A'(\eta)=\int h(x)\exp(\eta^T\phi(x))\phi(x)dx exp(A(η))A(η)=h(x)exp(ηTϕ(x))ϕ(x)dx A ′ ( η ) = ∫ h ( x ) exp ⁡ ( η ⊤ ϕ ( x ) ) ⋅ ϕ ( x ) ⋅ d x exp ⁡ ( A ( η ) ) = ∫ h ( x ) exp ⁡ ( η ⊤ ϕ ( x ) − A ( η ) ) ⋅ ϕ ( x ) = ∫ p ( x ∣ η ) ⋅ ϕ ( x ) d x = E p ( x ∣ η ) [ ϕ ( x ) ] \begin{aligned} A^{\prime}(\eta) &=\frac{\int h(x) \exp \left(\eta^{\top} \phi(x)\right) \cdot \phi(x) \cdot d x}{\exp (A(\eta))} \\ &=\int {h(x) \exp \left(\eta^{\top} \phi(x)-A(\eta)\right) \cdot \phi(x)} \\ &=\int p(x | \eta) \cdot \phi(x) d x \\ &=\mathbb{E} p(x | \eta)[\phi(x)] \end{aligned} A(η)=exp(A(η))h(x)exp(ηϕ(x))ϕ(x)dx=h(x)exp(ηϕ(x)A(η))ϕ(x)=p(xη)ϕ(x)dx=Ep(xη)[ϕ(x)]
类似的: A ′ ′ ( η ) = V a r p ( x ∣ η ) [ ϕ ( x ) ] A''(\eta)=Var_{p(x|\eta)}[\phi(x)] A(η)=Varp(xη)[ϕ(x)] 由于方差为正,于是 A ( η ) A(\eta) A(η) 一定是凸函数。
我们可以将上述结果带到高斯分布进行检验:
在上一节知道 η = ( η 1 η 2 ) = ( μ σ 2 − 1 2 σ 2 ) ⇒ { μ = − η 1 2 η 2 σ 2 = − 1 2 η 2 ϕ ( x ) = ( x x 2 ) A ( η ) = u 2 2 σ 2 + 1 2 log ⁡ ( 2 π σ 2 ) = η 1 2 4 η 2 + 1 2 log ⁡ ( − π 2 η 2 ) ⇒ P ( x ∣ θ ) = 1 ⋅ exp ⁡ { η ⊤ ϕ ( x ) − A ( η ) } \begin{array}{l} \eta=\left(\begin{array}{l} \eta_{1} \\ \eta_{2} \end{array}\right)=\left(\begin{array}{c} \frac{\mu}{ \sigma^{2}} \\ -\frac{1}{2 \sigma^{2}} \end{array}\right) \Rightarrow\left\{\begin{array}{l} \mu=-\frac{\eta_{1}}{2 \eta_{2}} \\ \sigma^{2}=-\frac{1}{2 \eta_{2}} \end{array}\right. \\ \\ \begin{aligned} \phi(x)=\left(\begin{array}{l} x \\ x^{2} \end{array}\right) \\ \\ A(\eta)=\frac{u^{2}}{2 \sigma^{2}}+\frac{1}{2} \log \left(2\pi \sigma^{2}\right) \\ \\ =\frac{\eta_{1}^{2}}{4 \eta_{2}}+\frac{1}{2} \log \left(-\frac{\pi}{2 \eta_{2}}\right) \end{aligned} \\ \\ \Rightarrow P(x | \theta)=1 \cdot \exp \left\{\eta^{\top} \phi(x)-A(\eta)\right\} \end{array} η=(η1η2)=(σ2μ2σ21){ μ=2η2η1σ2=2η21ϕ(x)=(xx2)A(η)=2σ2u2+21log(2πσ2)=4η2η12+21log(2η2π)P(xθ)=1exp{ ηϕ(x)A(η)}
那么,
E [ ϕ ( x ) ] = [ E ( x ) E ( x 2 ) ] E[\phi(x)]=\left[\begin{array}{l} E(x) \\ E\left(x^{2}\right) \end{array}\right] E[ϕ(x)]=[E(x)E(x2)]易知, E ( x ) = μ E(x)=\mu E(x)=μ,对应的是 ∂ A ( η ) d η 1 = 2 η 1 4 η 2 = − 2 ⋅ μ / σ 2 4 ⋅ ( − 1 2 σ 2 ) = μ \frac{\partial A(\eta)}{d \eta_{1}}=\frac{2\eta_{1}}{4\eta_{2}}=\frac{-2 \cdot \mu / \sigma^{2}}{4 \cdot\left(-\frac{1}{2 \sigma^{2}}\right)}=\mu dη1A(η)=4η22η1=4(2σ21)2μ/σ2=μ
E ( x 2 ) = ( E x ) 2 + V a r ( x ) = μ 2 + σ 2 E(x^2)=(Ex)^2+Var(x)=\mu^2+\sigma^2 E(x2)=(Ex)2+Var(x)=μ2+σ2
∂ A ( η ) d η 2 = η 1 2 4 η 2 2 − 1 2 η 2 = ( μ / σ 2 ) 2 4 ( − 1 2 σ 2 ) 2 − 1 2 ⋅ ( − 1 2 σ 2 ) = u 2 + σ 2 \begin{aligned} \frac{\partial A(\eta)}{d \eta_{2}}=\frac{\eta_{1}^{2}}{4 \eta_{2}^{2}}-\frac{1}{2 \eta_{2}} &=\frac{\left(\mu / \sigma^{2}\right)^2}{4\left(-\frac{1}{2\sigma^2}\right)^{2}}-\frac{1}{2 \cdot\left(-\frac{1}{2\sigma^{2}}\right)} \\ &=u^{2}+\sigma^{2} \end{aligned} dη2A(η)=4η22η122η21=4(2σ21)2(μ/σ2)22(2σ21)1=u2+σ2
也就是本节的结论。

4 极大似然估计和充分统计量

前面的结论: p ( x ∣ η ) = h ( x ) exp ⁡ ( η T ϕ ( x ) − A ( η ) ) = 1 exp ⁡ ( A ( η ) ) h ( x ) exp ⁡ ( η T ϕ ( x ) ) p(x|\eta)=h(x)\exp(\eta^T\phi(x)-A(\eta))=\frac{1}{\exp(A(\eta))}h(x)\exp(\eta^T\phi(x)) p(xη)=h(x)exp(ηTϕ(x)A(η))=exp(A(η))1h(x)exp(ηTϕ(x))

  • η \eta η是参数向量
  • A ( η ) A(\eta) A(η) 是对数配分函数(归一化因子)
  • ϕ ( x ) \phi(x) ϕ(x) 叫做充分统计量
  • 其中 A ′ ( η ) = E p ( x ∣ η ) [ ϕ ( x ) ] A'(\eta)=\mathbb{E} p(x | \eta)[\phi(x)] A(η)=Ep(xη)[ϕ(x)] A ′ ′ ( η ) = V a r [ ϕ ( x ) ] A''(\eta)=Var[\phi(x)] A(η)=Var[ϕ(x)]

对于独立全同采样得到的数据集 D = x 1 , x 2 , ⋯   , x N \mathcal{D}={x_1,x_2,\cdots,x_N} D=x1,x2,,xN,由极大似然估计可得
η m l e = arg ⁡ max ⁡ η log ⁡ P ( D ∣ η ) = arg ⁡ max ⁡ η log ⁡ ∏ i = 1 N P ( x i ∣ η ) = arg ⁡ max ⁡ η ∑ i = 1 N log ⁡ P ( x i ∣ η ) = arg ⁡ max ⁡ η ∑ i = 1 N log ⁡ [ h ⁡ ( x ) exp ⁡ { η ⊤ ϕ ( x i ) − A ( η ) } = arg ⁡ max ⁡ η ∑ i = 1 N [ log ⁡ h i ( x ) + η ⊤ ϕ ( x i ) − A ( η ) } = arg ⁡ max ⁡ η ∑ i = 1 N [ η ⊤ ϕ ( x i ) − A ( η ) ] \begin{aligned} &\begin{aligned} \eta_{mle} &=\arg \max _{\eta} \log P(D | \eta) \\ &=\arg \max _{\eta} \log \prod_{i=1}^{N} P\left(x_{i} | \eta\right) \\ &=\arg \max _{\eta} \sum_{i=1}^{N} \log P\left(x_{i} | \eta\right) \end{aligned}\\ & =\arg \max _{\eta} \sum_{i=1}^{N} \log \left[\operatorname{h}(x) \exp \left\{\eta^{\top} \phi(x_{i})-A(\eta)\right\}\right.\\ &=\arg \max _{\eta} \sum_{i=1}^{N}\left[\log h_{i}(x)+\eta^{\top} \phi(x_{i})-A(\eta)\right\}\\ &=\arg \max _{\eta} \sum_{i=1}^{N}\left[\eta^{\top} \phi(x_{i})-A(\eta)\right] \end{aligned} ηmle=argηmaxlogP(Dη)=argηmaxlogi=1NP(xiη)=argηmaxi=1NlogP(xiη)=argηmaxi=1Nlog[h(x)exp{ ηϕ(xi)A(η)}=argηmaxi=1N[loghi(x)+ηϕ(xi)A(η)}=argηmaxi=1N[ηϕ(xi)A(η)]
求导,并令积分为0
∂ ∑ i = 1 N [ n ⊤ ϕ i ( x ) − A ( η ) ] ∂ η = ∑ i = 1 N [ ϕ ( x i ) − A ′ ( η ) ] = ∑ i = 1 N ϕ i ( x ) − N A ′ ( η ) = 0 ⇒ A ′ ( η ∗ ) = 1 N ∑ i = 1 N ϕ ( x i ) \begin{aligned} \frac{\partial \sum_{i=1}^{N}\left[n^{\top} \phi_{i}(x)-A(\eta)\right]}{\partial \eta} &=\sum_{i=1}^{N}\left[\phi(x_{i})-A^{\prime}(\eta)\right] \\ &=\sum_{i=1}^{N} \phi_{i}(x)-N A^{\prime}(\eta)=0 \\ \Rightarrow & A^{\prime}\left(\eta^{*}\right)=\frac{1}{N} \sum_{i=1}^{N} \phi(x_{i}) \\ \end{aligned} ηi=1N[nϕi(x)A(η)]=i=1N[ϕ(xi)A(η)]=i=1Nϕi(x)NA(η)=0A(η)=N1i=1Nϕ(xi)
g ( η ) = A ′ ( η ∗ ) g(\eta)=A^{\prime}\left(\eta^{*}\right) g(η)=A(η),故 η ∗ = g − 1 ( η ) \eta^{*}=g^{-1}(\eta) η=g1(η)。(即 η ∗ \eta^{*} η A ′ ( η ∗ ) A^{\prime}\left(\eta^{*}\right) A(η)的反函数)
对于高斯分布而言, η ∗ \eta^{*} η表示 ( μ , σ 2 ) (\mu,\sigma^2) (μ,σ2)这些参数,为求解分布表达式,不用保存每一个样本,相反我们只需求出一个值,即 1 N ∑ i = 1 N ϕ ( x i ) \frac{1}{N} \sum_{i=1}^{N} \phi(x_{i}) N1i=1Nϕ(xi)就能利用反函数求出 η m l e \eta_{mle} ηmle。也就是为了估算参数,只需要知道充分统计量就可以了。

5 最大熵角度

5.1 无约束时的最大熵

信息量 − l o g P -logP logP
信息量与概率成反比,可以这样理解,如果一件事发生的概率非常大,那么它包含的信息就非常少,因为这件事已经确定会发生了。
信息熵
连续函数: E n t r o p y = ∫ − p ( x ) log ⁡ ( p ( x ) ) d x Entropy=\int-p(x)\log(p(x))dx Entropy=p(x)log(p(x))dx
离散函数: E n t r o p y = ∑ k = 1 K p k log ⁡ p k Entropy={\sum\limits_{k=1}^Kp_k\log p_k} Entropy=k=1Kpklogpk

一般地,对于完全随机的变量(等可能),信息熵最大。
我们的假设为最大熵原则,假设数据是离散分布的, k k k 个特征的概率分别为 p k p_k pk,最大熵原理可以表述为:
max ⁡ H ( p ) = min ⁡ ∑ k = 1 K p k log ⁡ p k   s . t .   ∑ k = 1 K p k = 1 \max{H(p)}=\min{\sum\limits_{k=1}^Kp_k\log p_k}\ s.t.\ \sum\limits_{k=1}^Kp_k=1 maxH(p)=mink=1Kpklogpk s.t. k=1Kpk=1

利用 Lagrange 乘子法:
L ( p , λ ) = ∑ k = 1 K p k log ⁡ p k + λ ( 1 − ∑ k = 1 K p k ) L(p,\lambda)=\sum\limits_{k=1}^Kp_k\log p_k+\lambda(1-\sum\limits_{k=1}^Kp_k) L(p,λ)=k=1Kpklogpk+λ(1k=1Kpk)
求导,可得:
∂ L ( p , x ) ∂ p i = log ⁡ p i + 1 − λ = 0 p ^ i = exp ⁡ ( λ − 1 ) \begin{array}{c} \frac{\partial L(p, x)}{\partial p_{i}}=\log p_{i}+1-\lambda=0 \\ \\ \hat{p}_{i}=\exp (\lambda-1) \end{array} piL(p,x)=logpi+1λ=0p^i=exp(λ1)
又因为 λ \lambda λ是一个常数,于是可得:
p 1 = p 2 = ⋯ = p K = 1 K p_1=p_2=\cdots=p_K=\frac{1}{K} p1=p2==pK=K1
因此 p ( x ) p(x) p(x)均匀分布的时候,熵最大。

5.2 有约束时的最大熵

上⼀节结论是在没有任何已知信息,或者说没有约束的情况下,均匀分布的熵最⼤。
下⾯讨论⼀下在只有数据的情况下,怎么⽣成约束,进⽽求解有约束的情况。
一个数据集 D \mathcal{D} D,在这个数据集上的经验分布为 p ^ ( x ) = C o u n t ( x ) N \hat{p}(x)=\frac{Count(x)}{N} p^(x)=NCount(x),实际不可能满足所有的经验概率相同,于是在上面的最大熵原理中还需要加入这个经验分布的约束。
那么,可令 f ( x ) f(x) f(x)是关于x的任意函数,为了具有一般性,假设 f ( x ) f(x) f(x)是一个向量,也就是说 f ( x ) f(x) f(x)中的数据是关于x的函数。对任意一个函数,经验分布的经验期望可以求得为:
E p ^ [ f ( x ) ] = Δ \mathbb{E}\hat{p}[f(x)]=\Delta Ep^[f(x)]=Δ这也可以当做是已知条件。
于是:
max ⁡ H ( p ) = min ⁡ ∑ k = 1 N p k log ⁡ p k s . t .   ∑ k = 1 N p k = 1 , E p [ f ( x ) ] = Δ \max{H(p)}=\min{\sum\limits_{k=1}^Np_k\log p_k}\\ s.t.\ \sum\limits_{k=1}^Np_k=1,\mathbb{E}p[f(x)]=\Delta maxH(p)=mink=1Npklogpks.t. k=1Npk=1,Ep[f(x)]=Δ
Lagrange 函数为:
L ( p , λ 0 , λ ) = ∑ k = 1 N p k log ⁡ p k + λ 0 ( 1 − ∑ k = 1 N p k ) + λ T ( Δ − E p [ f ( x ) ] ) L(p,\lambda_0,\lambda)=\sum\limits_{k=1}^Np_k\log p_k+\lambda_0(1-\sum\limits_{k=1}^Np_k)+\lambda^T(\Delta-\mathbb{E}p[f(x)]) L(p,λ0,λ)=k=1Npklogpk+λ0(1k=1Npk)+λT(ΔEp[f(x)])
求导得到:
∂ ∂ p ( x ) L = ∑ k = 1 N ( log ⁡ p ( x ) + 1 ) − ∑ k = 1 N λ 0 − ∑ k = 1 N λ T f ( x ) ⟹ ∑ k = 1 N log ⁡ p ( x ) + 1 − λ 0 − λ T f ( x ) = 0 \begin{aligned} \frac{\partial}{\partial p(x)} L &=\sum_{k=1}^{N}(\log p(x)+1)-\sum_{k=1}^{N} \lambda_{0}-\sum_{k=1}^{N} \lambda^{T} f(x) \\ & \Longrightarrow \sum_{k=1}^{N} \log p(x)+1-\lambda_{0}-\lambda^{T} f(x)=0 \end{aligned} p(x)L=k=1N(logp(x)+1)k=1Nλ0k=1NλTf(x)k=1Nlogp(x)+1λ0λTf(x)=0
由于数据集是任意的,对数据集求和也意味着求和项里面的每一项都是0:
p ( x ) = exp ⁡ ( λ T f ( x ) + λ 0 − 1 ) p(x)=\exp(\lambda^Tf(x)+\lambda_0-1) p(x)=exp(λTf(x)+λ01)
这就是指数族分布。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/cengjing12/article/details/106345098

智能推荐

什么是内部类?成员内部类、静态内部类、局部内部类和匿名内部类的区别及作用?_成员内部类和局部内部类的区别-程序员宅基地

文章浏览阅读3.4k次,点赞8次,收藏42次。一、什么是内部类?or 内部类的概念内部类是定义在另一个类中的类;下面类TestB是类TestA的内部类。即内部类对象引用了实例化该内部对象的外围类对象。public class TestA{ class TestB {}}二、 为什么需要内部类?or 内部类有什么作用?1、 内部类方法可以访问该类定义所在的作用域中的数据,包括私有数据。2、内部类可以对同一个包中的其他类隐藏起来。3、 当想要定义一个回调函数且不想编写大量代码时,使用匿名内部类比较便捷。三、 内部类的分类成员内部_成员内部类和局部内部类的区别

分布式系统_分布式系统运维工具-程序员宅基地

文章浏览阅读118次。分布式系统要求拆分分布式思想的实质搭配要求分布式系统要求按照某些特定的规则将项目进行拆分。如果将一个项目的所有模板功能都写到一起,当某个模块出现问题时将直接导致整个服务器出现问题。拆分按照业务拆分为不同的服务器,有效的降低系统架构的耦合性在业务拆分的基础上可按照代码层级进行拆分(view、controller、service、pojo)分布式思想的实质分布式思想的实质是为了系统的..._分布式系统运维工具

用Exce分析l数据极简入门_exce l趋势分析数据量-程序员宅基地

文章浏览阅读174次。1.数据源准备2.数据处理step1:数据表处理应用函数:①VLOOKUP函数; ② CONCATENATE函数终表:step2:数据透视表统计分析(1) 透视表汇总不同渠道用户数, 金额(2)透视表汇总不同日期购买用户数,金额(3)透视表汇总不同用户购买订单数,金额step3:讲第二步结果可视化, 比如, 柱形图(1)不同渠道用户数, 金额(2)不同日期..._exce l趋势分析数据量

宁盾堡垒机双因素认证方案_horizon宁盾双因素配置-程序员宅基地

文章浏览阅读3.3k次。堡垒机可以为企业实现服务器、网络设备、数据库、安全设备等的集中管控和安全可靠运行,帮助IT运维人员提高工作效率。通俗来说,就是用来控制哪些人可以登录哪些资产(事先防范和事中控制),以及录像记录登录资产后做了什么事情(事后溯源)。由于堡垒机内部保存着企业所有的设备资产和权限关系,是企业内部信息安全的重要一环。但目前出现的以下问题产生了很大安全隐患:密码设置过于简单,容易被暴力破解;为方便记忆,设置统一的密码,一旦单点被破,极易引发全面危机。在单一的静态密码验证机制下,登录密码是堡垒机安全的唯一_horizon宁盾双因素配置

谷歌浏览器安装(Win、Linux、离线安装)_chrome linux debian离线安装依赖-程序员宅基地

文章浏览阅读7.7k次,点赞4次,收藏16次。Chrome作为一款挺不错的浏览器,其有着诸多的优良特性,并且支持跨平台。其支持(Windows、Linux、Mac OS X、BSD、Android),在绝大多数情况下,其的安装都很简单,但有时会由于网络原因,无法安装,所以在这里总结下Chrome的安装。Windows下的安装:在线安装:离线安装:Linux下的安装:在线安装:离线安装:..._chrome linux debian离线安装依赖

烤仔TVの尚书房 | 逃离北上广?不如押宝越南“北上广”-程序员宅基地

文章浏览阅读153次。中国发达城市榜单每天都在刷新,但无非是北上广轮流坐庄。北京拥有最顶尖的文化资源,上海是“摩登”的国际化大都市,广州是活力四射的千年商都。GDP和发展潜力是衡量城市的数字指...

随便推点

java spark的使用和配置_使用java调用spark注册进去的程序-程序员宅基地

文章浏览阅读3.3k次。前言spark在java使用比较少,多是scala的用法,我这里介绍一下我在项目中使用的代码配置详细算法的使用请点击我主页列表查看版本jar版本说明spark3.0.1scala2.12这个版本注意和spark版本对应,只是为了引jar包springboot版本2.3.2.RELEASEmaven<!-- spark --> <dependency> <gro_使用java调用spark注册进去的程序

汽车零部件开发工具巨头V公司全套bootloader中UDS协议栈源代码,自己完成底层外设驱动开发后,集成即可使用_uds协议栈 源代码-程序员宅基地

文章浏览阅读4.8k次。汽车零部件开发工具巨头V公司全套bootloader中UDS协议栈源代码,自己完成底层外设驱动开发后,集成即可使用,代码精简高效,大厂出品有量产保证。:139800617636213023darcy169_uds协议栈 源代码

AUTOSAR基础篇之OS(下)_autosar 定义了 5 种多核支持类型-程序员宅基地

文章浏览阅读4.6k次,点赞20次,收藏148次。AUTOSAR基础篇之OS(下)前言首先,请问大家几个小小的问题,你清楚:你知道多核OS在什么场景下使用吗?多核系统OS又是如何协同启动或者关闭的呢?AUTOSAR OS存在哪些功能安全等方面的要求呢?多核OS之间的启动关闭与单核相比又存在哪些异同呢?。。。。。。今天,我们来一起探索并回答这些问题。为了便于大家理解,以下是本文的主题大纲:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JCXrdI0k-1636287756923)(https://gite_autosar 定义了 5 种多核支持类型

VS报错无法打开自己写的头文件_vs2013打不开自己定义的头文件-程序员宅基地

文章浏览阅读2.2k次,点赞6次,收藏14次。原因:自己写的头文件没有被加入到方案的包含目录中去,无法被检索到,也就无法打开。将自己写的头文件都放入header files。然后在VS界面上,右键方案名,点击属性。将自己头文件夹的目录添加进去。_vs2013打不开自己定义的头文件

【Redis】Redis基础命令集详解_redis命令-程序员宅基地

文章浏览阅读3.3w次,点赞80次,收藏342次。此时,可以将系统中所有用户的 Session 数据全部保存到 Redis 中,用户在提交新的请求后,系统先从Redis 中查找相应的Session 数据,如果存在,则再进行相关操作,否则跳转到登录页面。此时,可以将系统中所有用户的 Session 数据全部保存到 Redis 中,用户在提交新的请求后,系统先从Redis 中查找相应的Session 数据,如果存在,则再进行相关操作,否则跳转到登录页面。当数据量很大时,count 的数量的指定可能会不起作用,Redis 会自动调整每次的遍历数目。_redis命令

URP渲染管线简介-程序员宅基地

文章浏览阅读449次,点赞3次,收藏3次。URP的设计目标是在保持高性能的同时,提供更多的渲染功能和自定义选项。与普通项目相比,会多出Presets文件夹,里面包含着一些设置,包括本色,声音,法线,贴图等设置。全局只有主光源和附加光源,主光源只支持平行光,附加光源数量有限制,主光源和附加光源在一次Pass中可以一起着色。URP:全局只有主光源和附加光源,主光源只支持平行光,附加光源数量有限制,一次Pass可以计算多个光源。可编程渲染管线:渲染策略是可以供程序员定制的,可以定制的有:光照计算和光源,深度测试,摄像机光照烘焙,后期处理策略等等。_urp渲染管线

推荐文章

热门文章

相关标签