게시물 목록

Tuesday, February 15, 2022

summation of two random variables: some elementary calculations

세상이 알아주지 않지만 나 혼자 자주 하는 일 중 하나는, 간단하고 잘 알려진 결과들도 가능한 한 복잡하게 얻어보는 것이다. 무슨 말인고 하니, 계산을 할때 인간의 직관과 언어, 그리고 추상화된 심볼로 때울 수 있는 부분을 배제하고 가능한한 elementary한 수식 전개만 이용해서 절차적, 기계적으로 계산해 보는 것.


그렇다고 해서 추상적인 수학적 구조로 가는 게 아니라 최대한 elementary하게 풀어 쓰는 것이다보니 이런건 '수학적'인 사고방식이라고 부르기도 어렵다. 그냥 물리학도로서의 계산 연습 같은거라고 하겠다.


오늘 지인의 궁금증에 나름의 답을 써 보다가도 그런 걸 하나 했다 (원래의 궁금증과는 큰 관련은 없게 된 듯). 바로 두 독립인 확률변수 \(X_1, X_2\)의 합 \(Y=X_1+X_2\)에 대해서다. 자세한 계산은 다음의 pdf 파일에 써 두었고, 모티베이션을 아래에 국문으로 소개한다.


확률변수라는 것을 이름과 달리 변수(집합의 원소가 될수있는 기호)라기보다는 함수(집합에서 집합으로의 맵핑)라는 관점으로 생각하는게 더 적절할때가 많다. 그러면 일단 위 표현에 등장하는 +기호는 숫자들간의 elementary한 덧셈과는 다르고, 그것과 비슷하게 보이도록 표기한것일 뿐인건 분명해보인다. 숫자와 숫자를 연산해서 숫자가 나오는게 아니라, 함수와 함수를 연산해서 함수가 나오는거니까.


확률변수는 결국 확률분포함수에 의해 completely describe되므로 확률분포의 언어로 상황을 나타내보자. 그러면 \(Y\)의 확률분포를, \(X_1\)과 \(X_2\) 확률분포의 elementary한 덧셈과 곱셈으로 나타내겠다는 생각을 해볼수 있다.


첫번째 관점은, 세번째 확률변수 \(Y\)에 독자적인 randomness가 없고 철저히 \(X_1\)과 \(X_2\)에 의해서만 결정된다는 것에서 출발한다. 이걸 식으로 표현해보자. 정확히 어떻게 결정되는지가 델타함수 부분에 들어가있다.


\(P(X_1=x_1, X_2=x_2, Y=y) = P(X_1=x_1) P(X_2=x_2) \delta(y - (x_1+x_2))\) ...(i)


Elementary한 연산만으로 되어 있으므로 내가 좋아하는 표현이다.


\(X_1\)과 \(X_2\)에 더하여 \(Y\)라는 확률변수까지 함께 고려할 때 추가되는 불확실성이 없다는 것을, 정보엔트로피 H를 정량적 척도삼아 기계적(?)으로 계산해 볼 수 있다. 이 3개짜리 joint 분포의 불확실성의 총 크기(정보엔트로피)를 계산하면, 기존 두개짜리 분포 \(P(X_1=x_1, X_2=x_2)\)의 정보엔트로피와 똑같게 나온다 (상단 pdf에서 자세히).


두번째 관점은 확률변수의 합의 직관적(?) 정의에 충실하게, 확률변수 \(X_1\)과 \(X_2\)에서 하나씩 draw해서 서로 더했을때 그 합이 \(y\)가 될 확률을 써 보는 것이다. \(X_1\)에서 \(x\)가 나왔다면 \(X_2\)에서는 \(y-x\)가 나와야 한다.


\(P(Y=y) = \sum_x P(X_1=x) P(X_2=y-x)\) ...(ii)


컨볼루션이라고 부르는 익숙한 연산이다. 독립인 확률변수 두 개의 합의 분포는 원래의 확률분포 두 개의 컨볼루션인 것. 그렇다면 (i)에서 (ii)를 직접 유도할수 있을까? 델타함수의 성질을 잘 써서 marginalize를 두번 해주면 된다 (상단 pdf에서 자세히).


이렇게 \(Y=X_1+X_2\)라는 추상화된(?) 표현을 확률분포함수의 언어로 elementary하게 풀어 써서 이리저리 갖고 놀아 봤다. 그저 덧셈기호이지만 뜯어보면 꽤 복잡한것들이 숨어있는 셈이다. 그러면 우리는 이 표현을 어떻게 실제 숫자들간의 덧셈처럼 쉽게 받아들이고 사용하는가? 그리고 그래도 왜 문제가 없는가? 몇가지 생각을 해봤다.

(1) Draw한 샘플들(곧 숫자들)의 덧셈과 대응되므로.

(2) 위 식 (i)의 델타함수 안에 실제 숫자들의 덧셈인 \(y-(x_1+x_2)\)가 들어가 있어서.
(3) 독립인 확률변수의 합(<=> 확률분포함수의 convolution)도 교환법칙 및 결합법칙이 성립하는 등, 대수학적 성질을 숫자들의 덧셈과 to some extent 공유해서.

(1), (2)는 trivial하게 같은얘기 같고, '어떻게 쉽게 받아들이나'와 관련있는 듯하다. (3)은 나머지 둘과는 결이 다르며, '왜 그래도 되는가'와 관련있는 듯하다. 맞는 생각일지 독자 쌤들의 많은 지적 바라오며...

암튼 간단한 예를 들었지만, 실제 연구 과정에서도 수식 전개가 약간 불명확하다 싶으면 자연어와 조건문으로, 혹은 한단계 추상화된 심볼로 돼있는부분을 최대한 elementary한 수식으로 바꿔서 기계적으로 풀어보곤 한다. 무슨무슨 theorem 등의 알려진 결과에 의해 옳을수밖에 없다는 고급(?) 논증도 중요하지만 초등적인 계산으로 직접 보이는것 역시 이해를 보완해준다. 특히 랑주뱅방정식을 도구삼아 연구할때면 correlation function에 대해 그런 초등적인 확인작업을 해볼 기회가 많다.

그러나 그런 식의 계산은 특성상 사람들이 별로 알아주지 않으며 직접적으로 유용하지도 않다. 내 개인적인 확인용, 그리고 공부 및 연습용이라고 보는게 맞겠다. 흘려보내기 아깝다보니 sns랑 노션에 그런걸 종종 모아두면 어떨까 한다.

Facebook에서 이 글 보기: 링크