끊임없이 부단히

[수학] 두 확률(가우시안)간 거리 척도(distance metrix) 본문

이론

[수학] 두 확률(가우시안)간 거리 척도(distance metrix)

허구의 2023. 2. 24. 03:10

이번 포스팅에서는 자주 사용되는 확률 분포간 거리 척도(distance metric)들을 간략하게 정리하고자 합니다.
특히 확률 분포가 가우시안일 때 수식들을 정리하고자 합니다.
척도는 Kullback-Leibler divergence, Hellinger 입니다!
 


엔트로피(Entropy)

정보이론에서 사용되는 엔트로피는 어떤 확률 분포가 가지는 불확실성의 양을 의미합니다.
엔트로피는 아래와 같이 정의됩니다.
 
H(X)=xp(x)logp(x)=E[logp(X)]
 
 
 
 
 


Kullback-Leibler divergence

KLD도 두 확률분포간 유사도(similarity)를 측정하는데 자주 사용되는 척도 입니다.

DKL(P||Q)=xp(x)log(p(x)q(x))
  
KLD가 작으면 두 분포가 더 유사함을 의미합니다.
그러나 KLD는 비대칭(asymmetry)하기 때문에 정확히 '거리'는 아니며 이를 보완하기 위해 JSD를 사용합니다.
또한, 보시면 위 엔트로피와 유사한 꼴임을 알 수 있는데 실제 relative entropy로도 불리며,
아래와 같이 크로스 엔트로피에 엔트로피 차이로 표현할 수 있습니다.
 
DKL(P||Q)=H(P,Q)H(P)
 
또한 두 확률 분포가 가우시안이라면 아래과 같이 해석적으로 구할 수 있습니다.
KL(N(μ1,Σ1)||N(μ2,Σ2))=12(tr(Σ12Σ1)+(μ2μ1)TΣ12(μ2μ1)kd+ln|Σ2||Σ1|) 
 
위에서 언급하였듯이, KLD를 기반으로 JSD가 아래와 같이 계산됩니다.
참고로  M=(P+Q)/2 입니다.
위 분포는 가우시안에서 해석적으로 구할 수 없기 때문에, JSD 또한 가우시안일 때 해석해가 존재하지 않습니다.
 JSD(P||Q)=12(KL(P||M)+KL(Q||M))
 
추가로 JSD 자연로그 ln을 쓸 경우 upper bound가 ln(2)로 됩니다.
정확히는 로그 밑수(base)를 b라 할 때 upper bound가 logb(2)가 됩니다.
KLD는 upper bound가 없습니다.
 
 


Hellinger distance

마찬가지로 두 분포의 유사도를 측정합니다.
Hellinger 거리의 제곱은 아래와 같습니다.
마찬가지로 0에 가까울수록 두 분포가 유사하다는 것을 의미합니다. 
 
H2(P,Q)=12(p(x)q(x))2dx=1p(x)q(x)dx
 
위 식에서 알 수 있듯이 upper bound는 1입니다.
만약 두 분포가 가우시안이라면 아래와 같이 해석적으로 구할 수 있습니다.
 
H2(N(μ1,Σ1)||N(μ2,Σ2))=1|Σ1|1/4|Σ2|1/4|Σavg|1/2exp(18(μ1μ2)T(Σavg)1(μ1μ2))
 
 
참고로, 이는 Bhattacharyya distance와 유사하게 생겼습니다.(Bhat=ln(1H2))
하지만 Bhattacharyya 거리는 이름이 거리이지만 triangle inequality가 만족하지 않아 '거리'는 아닙니다.
마찬가지로 가우시안일 경우 아래와 같이 구할 수 있습니다.
Bhat(N(μ1,Σ1)||N(μ2,Σ2))=12log(|Σavg||Σ1||Σ2|)+18(μ1μ2)TΣ1avg(μ1μ2)
 
Bhattacharyya 거리는 upper bound가 없습니다.
 
 
 
감사합니다.