Variational Lower Bound
Nź°ģ ė°ģ“ķ° ķ¬ģøķøģģ ėŖØėøģ“ ė°ģ“ķ° ģķģ ģģ±ķė log likelihoodģø logpĪøā(x(1),x(2),āÆ,x(N))=āi=1Nālog(pĪøā(x(1)))넼 ģµģ ķķźø° ģķ“ log(pĪøā(x(i)))넼 ź³ģ°ķ“ģ¼ ķė¤(Maximum Likelihood).
ź³ģ°ģ“ ė¶ź°ė„ķ“ ź·øėė”ė ģµģ ķķ ģ ģģ§ė§, z ģģ±ģ ģ¬ģ©ėė ģøģ½ė qĻā(zā£x)넼 ģ ģ©ķ“ log-likelihoodģ lower bound(ķķ)ģ ź³ģ°ķ ģ ģźø°ģ, ģ“넼 ģµėķķė©“ likelihoodź° ģµėķė ź°ė„ģ±ģ“ ģė¤.
ģ¬źø°ģė¶ķ°, ķėģ ė°ģ“ķ°ķ¬ģøķøx(i)ė ź°ėØķ x ė” ķķķź² ė¤. ėķ ģģ ķėģ©ķėģ© ģ ė¦¬ķ“ź°ė©° ģźø°ģ½ź² ģ“ķ“볓ģ.
qĻā(zā£x)ģ pĪøā(x)ė ģ°ź“ģ“ ģė ė¶ķ¬ģ“ź³ , qĻā(zā£x)ģ ģ ė¶ģ“ 1ģ“ėÆė” log-likelihood넼 ė¤ģź³¼ ź°ģ“ ė°ź¾¼ė¤.
log(pĪøā(x))=ā«qĻā(zā£x)log(pĪøā(x))dz ė² ģ“ģ¦ ģ 리넼 ģ“ģ©ķ“ ģ 리ķė¤.
=ā«qĻā(zā£x)log(pĪøā(zā£x)pĪøā(x,z)ā)dz=ā«qĻā(zā£x)log(pĪøā(x,z))dzāā«qĻā(zā£x)log(pĪøā(zā£x))dz ź°ėØķ Cross Entropyź¼“ė” ķķķ“볓ģ. Cross Entropyė H(p,q)=āEpā[q]=āā«plogq ģ“ė¤.
=āH(qĻā(zā£x),pĪøā(x,z))+H(qĻā(zā£x),pĪøā(zā£x)) ķķģ ź³ģ°ź°ė„ķź² ė§ė¤źø° ģķ“, KL Divergence꼓ģ ģ ėķė¤.
KL Divergenceė DKLā(pā£ā£q)=H(p,q)āH(p) ģ“ė¤.
=āH(qĻā(zā£x),pĪøā(x,z))+H(qĻā(zā£x),pĪøā(zā£x))āH(qĻā(zā£x))+H(qĻā(zā£x)) =āH(qĻā(zā£x),pĪøā(x,z))+DKLā(qĻā(zā£x)ā£ā£pĪøā(zā£x))+H(qĻā(zā£x)) ģ“ ģģ ėķė KL Divergence(ź·¼ģ¬ģ ģøģ½ėģ ģ¤ģ ģøģ½ėģ ė¶ķ¬ ģ°Øģ“)ė pĪøā(zā£x) 넼 ģ ģ ģģ¼ėÆė” 구ķ ģ ģģ§ė§, KL Divergenceė ķģ ģģģ“ėÆė” lower bound넼 구ķ ģ ģė¤.
log(pĪøā(x))ā„āH(qĻā(zā£x),pĪøā(x,z))+H(qĻā(zā£x)) Lower Bound넼 ģ”°źø ė ź³ģ°ķźø° ķøķź² ė°źæ ģ ģė¤. pĪøā(x,z)=pĪøā(xā£z)pĪøā(z)ģ“ėÆė” cross entropy넼 ė¶ķ“ķė©“
=āH(qĻā(zā£x),pĪøā(xā£z))āH(qĻā(zā£x),pĪøā(z))+H(qĻā(zā£x)) ģ“ė©°, ģ¬źø°ģ ķė² ė KL Divergenceź° ėķėė¤.
=āH(qĻā(zā£x),pĪøā(xā£z))āDKLā(qĻā(zā£x)ā£ā£pĪøā(z)) ė
¼ė¬øģ ėģØ ź²ģ²ė¼, źø°ėź° ķķė” ė°ź¾øė©“ ė¤ģź³¼ ź°ė¤.
log(pĪøā(x))ā„Ezā¼qĻā(zā£x)ā[pĪøā(xā£z)]āDKLā(qĻā(zā£x)ā£ā£pĪøā(z)) pĪøā(z)ė ė¶ķ¬ė„¼ ź°ģ ķ“ ģ ķ ģ ģź³ , qĻā(zā£x)ź·¼ģ¬ģķØ ģøģ½ė, pĪøā(xā£z)ė ķģµģķ¬ ėģ½ėģ“ėÆė” ėŖØė ź³ģ° ź°ė„ķė¤(tractable). ė°ė¼ģ ģ“넼 미ė¶ķ“ Īøģ Ļ넼 ėŖØė ģ
ė°ģ“ķøķė©“ ėė¤.
ź·øė¬ė, Ļ넼 ģ
ė°ģ“ķøķźø° ģķ“ ģ¬ģ©ķ ģ ģė naive Monte Carlo gradient estimatorė ģ“ė¤ ķØģģ źø°ėź°ģ źµ¬ķźø° ģķ“ ėė¤ķź² ė½ģ ķź· ģ ė“ėė°, ė묓 ķ° ė¶ģ°ģ ź°ģ ø ģ¤ģ©ģ ģ¼ė” ģµģ ķķ ģ ģė¤.
Stochastic Gradient VB estimator & Auto-Encoding VB
Lower bound넼 ģ ģµģ ķķ ģ ģė ģ¤ģ©ģ estimator넼 ģź°ķė¤. qĻā(zā£x)넼 ģµģ ķķģ§ė§, qĻā(z)ģė ģ ģ©ķ ģ ģė¤. Gradient descent넼 ģ“ģ©ķźø° ģķ“ģ loss넼 미ė¶ķ“ ģøģ½ėź¹ģ§ backpropagation ėģ“ģ¼ ķėÆė” ėÆøė¶ ź°ė„ķ“ģ¼ķė¤. ķģ§ė§ ģøģ½ėė z~ā¼qĻā(zā£x)z넼 ė¶ķ¬ģģ ķė ģķė§ķė ź³¼ģ ģ“źø°ģ ėÆøė¶ ė¶ź°ė„ķėÆė”(ė±ģ(=)ģ“ ģėėÆė” ėÆøė¶ ė¶ź°ė„), ģ°ģė²ģ¹ģ“ ģ“ ź³¼ģ ģģ ź¹Øģ ø ģøģ½ėģ GD넼 ģ¬ģ©ķ ģ ģė¤.
ė°ė¼ģ, ėÆøė¶ź°ė„ķ ķØģģø gĻā(ϵ,x)넼 ģ“ģ©ķ“ reparameterize(ģ¬ė§¤ź°ķ)ķė¤. ϵė ė
øģ“ģ¦ģ ėķ ė³ģģ“ė©° ź²°ė” ģ ģ¼ė”
z~=gĻā(ϵ,x),ϵā¼p(ϵ) ė” ģ¬ė§¤ź°ķķė¤. p(ϵ)ė ė
øģ“ģ¦ģ ėķ ģ ģ ķ ķė„ ė¶ķ¬ģ“ė¤. z넼 ķØģė” ėź³ ė
øģ“ģ¦ė§ ė¤ė„ø ė¶ķ¬ģģ ė½ė ķøė²ģ“ė¤. ė±ģģ“ ėėÆė” ėÆøė¶ ź°ė„ķ“ģ§ė¤. ģ“넼 ģ“ģ©ķ Monte Carlo źø°ėź° estimatorė ė¤ģź³¼ ź°ė¤.
EqĻā(zā£x(i))ā[f(z)]=Ep(ϵ)ā[f(gĻā(ϵ,x(i)))]āL1āl=1āLāf(gĻā(ϵ(l),x(i))) Monte Carlo expectationģ¼ė” piź°ģ 구ķė ź³¼ģ ģ ė³ø ģ ģ“ ģģ ź²ģ“ė¤. ģ“ģ ź°ģ“, ϵ(l)넼 ė§ģ“ ģķė§ķ ģė” ģ¤ģ źø°ėź°ģ ź°ź¹ģģ§ź²ģ“ė¤. źø°ģ”“ģ ź³ ģ°Øģ ė¶ķ¬ģø z넼 ģķė§ķ“ģ¼ķźø° ė문ģ ė¶ģ°ģ“ ė묓 ģ¦ź°ķ“ ķØģØģ ģ“ģ§ ģģģ¼ė, reparameterizationģ ķµķ“ ė¶ģ°ģ ģ¤ģ¼ ģ ģė¤. ģź³ ģė ė¶ķ¬ ķėģģ ģķė§ķźø° ė문ģ“ė¤.
ģ“ ė°©ė²ģ variational lower boundģ ėź°ģ“ ģ ģ©ķ“ ģµģ ķķė¤. ėģ Lower Bound넼 ģķė§ķ ė ϵģ ģ¶ģ¶ķ“ ź³ģ°ķź³ , SGDė Adagrad ė±ģ optimizer넼 ģ“ģ©ķ“ ģė “ķ ė ź¹ģ§ ģµģ ķķė¤.
미ėė°°ģ¹ ķ¬źø°ź° ķ° ź²½ģ°ė Lģ“ 1ģ“ģ“ė ģź“ ģė¤.
ėŖ©ģ ķØģ넼 Auto-Encoderģ²ė¼ ģź°ķė©“, ė ė²ģ§ø ķ logpĪøā(x(i)ā£z(i,l))ė ģ
ė „ģ¼ė”ė¶ķ° z(i,l)=gĻā(ϵ(l),x(i)) ģģ ģķė zė” x넼 ė³µģķė ģ¤ģ°Øģø reconstruction errorģ“ė¤. KL Divergence ķģ posterior ė¶ķ¬ź° prior ė¶ķ¬ģģ ė©ģ“ģ§ģ§ ģėė” ź·ģ ķė regularizerģ“ė¤.
Reparameterization Trick
ģµģ ķ ź°ė„ķėė” ė¬øģ 넼 ķ“ź²°ķźø° ģķ“ qĻā(zā£x)ģ¼ė”ė¶ķ° ģķė§ģ ė첓ķė ķØģ넼 ģ ģķė¤. zź° ķė„ ģ ģ“ģ§ ģź³ deterministicķź² ķķė ģ ģėė” z=gĻā(ϵ,x)ė” ģ ģķź³ , 볓씰 ė³ģė”ϵā¼p(ϵ)넼 ėģė¤.
z=gĻā(ϵ,x)ģ“ź³ ϵā¼p(ϵ) ģ“ėÆė” ϵė³ķģ ėķ p(ϵ)ģ ė¶ķ¬ģ zė³ķģ ėķ qĻā(zā£x) ģ ė¶ķ¬ė ź°ė¤(ģ¹ķģ ė¶).
p(ϵ)dϵ=qĻā(zā£x)dz ģ“넼 ģ ģ©ķė©“, ėÆøė¶ź°ė„ķ estimator넼 구ķ ģ ģė¤.
EqĻā(zā£x(i))ā[f(z)]=ā«qĻā(zā£x)f(z)dz=ā«p(ϵ)f(ϵ,x)dϵāL1āl=1āLāf(gĻā(ϵ(l),x)) ģ넼 ė¤ģ“ ģ ģ¬ė³ģź° ź°ģ°ģģ ė¶ķ¬ė„¼ ź°ģ§ ź²½ģ° zā¼N(μ,Ļ2)ģ“ė©° ģ“ ź²½ģ° ģ ģ ķ reparameterizationģ
z=μ+Ļā
ϵ,ϵā¼N(0,1) ģ“ ģøģė reparameterizationģ ģ ķė ė°©ė²ģ“ ģė¤.
ϵ넼 ź· ė±ė¶ķ¬( ā¼U(0,I) )ė” ėź³ , gĻā(ϵ,x)ź° ėģ ė¶ķ¬ķØģģ ģķØģź° ėėė” ķė¤. ź· ė±ė¶ķ¬ė„¼ ź°ģ§ė ė³ģ넼 ėģ ė¶ķ¬ķØģģ ėģ
ķė©“ ķė„ ė¶ķ¬ķØģź° ėźø° ė문ģ“ė¤.
location, scaleė” ģ ķ“ģ§ė ė¶ķ¬ķØģ넼 ģ ķė¤. ė¼ķė¼ģ¤, ķģ, T, ė”ģ§ģ¤ķ±,ź· ė±ė¶ķ¬ ė±ģ“ ģė¤.
ė¤ė„ø ė¶ķ¬ė” ķķ ź°ė„ķ ź²½ģ°ė ģė¤. ė”ź·øģ ź·ė¶ķ¬, ė² ķ, 칓ģ“ģ ź³±, Fė¶ķ¬ź° ģė¤.