본문 바로가기
이론/수학

두 확률(가우시안)간 거리 척도(distance metrix)

by 허구의 2023. 2. 24.

이번 포스팅에서는 자주 사용되는 확률 분포간 거리 척도(distance metric)들을 간략하게 정리하고자 합니다.
특히 확률 분포가 가우시안일 때 수식들을 정리하고자 합니다.
척도는 Kullback-Leibler divergence, Hellinger 입니다!
 


엔트로피(Entropy)

정보이론에서 사용되는 엔트로피는 어떤 확률 분포가 가지는 불확실성의 양을 의미합니다.
엔트로피는 아래와 같이 정의됩니다.
 
$$ H(X) = -\sum_x p(x)logp(x) = \mathbb{E}[-logp(X)]$$
 
 
 
 
 


Kullback-Leibler divergence

KLD도 두 확률분포간 유사도(similarity)를 측정하는데 자주 사용되는 척도 입니다.

$$ D_{KL}(P||Q) = \sum_x p(x)log\left(\frac{p(x)}{q(x)}\right) $$
  
KLD가 작으면 두 분포가 더 유사함을 의미합니다.
그러나 KLD는 비대칭(asymmetry)하기 때문에 정확히 '거리'는 아니며 이를 보완하기 위해 JSD를 사용합니다.
또한, 보시면 위 엔트로피와 유사한 꼴임을 알 수 있는데 실제 relative entropy로도 불리며,
아래와 같이 크로스 엔트로피에 엔트로피 차이로 표현할 수 있습니다.
 
$$ D_{KL}(P||Q) = H(P,Q) - H(P) $$
 
또한 두 확률 분포가 가우시안이라면 아래과 같이 해석적으로 구할 수 있습니다.
\begin{aligned}
        KL\Big(& \mathcal{N}(\mu_1, \Sigma_1) || \mathcal{N}(\mu_2, \Sigma_2) \Big)  \\
        &=\frac{1}{2} \Big( \mathrm{tr}({\Sigma}_2^{-1} {\Sigma}_1) + 
        ({\mu}_2 - {\mu}_1)^T {\Sigma}_2^{-1} ({\mu}_2 - {\mu}_1) - k_d + \ln \frac{|{\Sigma}_2|}{|{\Sigma}_1|} \Big)
    \end{aligned} 
 
위에서 언급하였듯이, KLD를 기반으로 JSD가 아래와 같이 계산됩니다.
참고로  $M = (P + Q) / 2$ 입니다.
위 분포는 가우시안에서 해석적으로 구할 수 없기 때문에, JSD 또한 가우시안일 때 해석해가 존재하지 않습니다.
 $$ JSD(P || Q) = \frac{1}{2} \left(KL(P || M) + KL(Q || M) \right) $$
 
추가로 JSD 자연로그 ln을 쓸 경우 upper bound가 ln(2)로 됩니다.
정확히는 로그 밑수(base)를 b라 할 때 upper bound가 $log_b(2)$가 됩니다.
KLD는 upper bound가 없습니다.
 
 


Hellinger distance

마찬가지로 두 분포의 유사도를 측정합니다.
Hellinger 거리의 제곱은 아래와 같습니다.
마찬가지로 0에 가까울수록 두 분포가 유사하다는 것을 의미합니다. 
 
$$ H^2(P,Q)=\frac{1}{2}\int \left( \sqrt{p(x)} - \sqrt{q(x)} \right)^2dx = 1-\int \sqrt{p(x)q(x)}dx $$
 
위 식에서 알 수 있듯이 upper bound는 1입니다.
만약 두 분포가 가우시안이라면 아래와 같이 해석적으로 구할 수 있습니다.
 
$$ H^2(\mathcal{N}(\mu_1, \Sigma_1) || \mathcal{N}(\mu_2, \Sigma_2)) = \\1 - \frac{|{\Sigma}_1|^{1/4}|{\Sigma}_2|^{1/4}}{|{\Sigma}{avg}|^{1/2}} \exp\left(-\frac{1}{8}({\mu}_1-{\mu}_2)^T({\Sigma}{avg})^{-1}({\mu}_1-{\mu}_2)\right) $$
 
 
참고로, 이는 Bhattacharyya distance와 유사하게 생겼습니다.($Bhat=-ln(1-H^2)$)
하지만 Bhattacharyya 거리는 이름이 거리이지만 triangle inequality가 만족하지 않아 '거리'는 아닙니다.
마찬가지로 가우시안일 경우 아래와 같이 구할 수 있습니다.
$$ Bhat\Big( \mathcal{N}(\mu_1, \Sigma_1) || \mathcal{N}(\mu_2, \Sigma_2) \Big) \\= \frac{1}{2}log\left( \frac{|{\Sigma}{avg}|}{\sqrt{|{\Sigma}_1| |{\Sigma}2|}} \right)+\frac{1}{8} ({\mu}_1 - {\mu}_2)^T {\Sigma}_{avg}^{-1} ({\mu}_1 - {\mu}_2)$$
 
Bhattacharyya 거리는 upper bound가 없습니다.
 
 
 
감사합니다.

'이론 > 수학' 카테고리의 다른 글

Poisson, Bernoulli, binomial distribution  (0) 2023.01.12
Schur complement 및 Woodbury matrix identity  (0) 2023.01.10