세상이 알아주지 않지만 나 혼자 자주 하는 일 중 하나는, 간단하고 잘 알려진 결과들도 가능한 한 복잡하게 얻어보는 것이다. 무슨 말인고 하니, 계산을 할때 인간의 직관과 언어, 그리고 추상화된 심볼로 때울 수 있는 부분을 배제하고 가능한한 elementary한 수식 전개만 이용해서 절차적, 기계적으로 계산해 보는 것.
그렇다고 해서 추상적인 수학적 구조로 가는 게 아니라 최대한 elementary하게 풀어 쓰는 것이다보니 이런건 '수학적'인 사고방식이라고 부르기도 어렵다. 그냥 물리학도로서의 계산 연습 같은거라고 하겠다.
오늘 지인의 궁금증에 나름의 답을 써 보다가도 그런 걸 하나 했다 (원래의 궁금증과는 큰 관련은 없게 된 듯). 바로 두 독립인 확률변수 \(X_1, X_2\)의 합 \(Y=X_1+X_2\)에 대해서다. 자세한 계산은 다음의 pdf 파일에 써 두었고, 모티베이션을 아래에 국문으로 소개한다.
확률변수라는 것을 이름과 달리 변수(집합의 원소가 될수있는 기호)라기보다는 함수(집합에서 집합으로의 맵핑)라는 관점으로 생각하는게 더 적절할때가 많다. 그러면 일단 위 표현에 등장하는 +기호는 숫자들간의 elementary한 덧셈과는 다르고, 그것과 비슷하게 보이도록 표기한것일 뿐인건 분명해보인다. 숫자와 숫자를 연산해서 숫자가 나오는게 아니라, 함수와 함수를 연산해서 함수가 나오는거니까.
확률변수는 결국 확률분포함수에 의해 completely describe되므로 확률분포의 언어로 상황을 나타내보자. 그러면 \(Y\)의 확률분포를, \(X_1\)과 \(X_2\) 확률분포의 elementary한 덧셈과 곱셈으로 나타내겠다는 생각을 해볼수 있다.
첫번째 관점은, 세번째 확률변수 \(Y\)에 독자적인 randomness가 없고 철저히 \(X_1\)과 \(X_2\)에 의해서만 결정된다는 것에서 출발한다. 이걸 식으로 표현해보자. 정확히 어떻게 결정되는지가 델타함수 부분에 들어가있다.
\(P(X_1=x_1, X_2=x_2, Y=y) = P(X_1=x_1) P(X_2=x_2) \delta(y - (x_1+x_2))\) ...(i)
Elementary한 연산만으로 되어 있으므로 내가 좋아하는 표현이다.
\(X_1\)과 \(X_2\)에 더하여 \(Y\)라는 확률변수까지 함께 고려할 때 추가되는 불확실성이 없다는 것을, 정보엔트로피 H를 정량적 척도삼아 기계적(?)으로 계산해 볼 수 있다. 이 3개짜리 joint 분포의 불확실성의 총 크기(정보엔트로피)를 계산하면, 기존 두개짜리 분포 \(P(X_1=x_1, X_2=x_2)\)의 정보엔트로피와 똑같게 나온다 (상단 pdf에서 자세히).
두번째 관점은 확률변수의 합의 직관적(?) 정의에 충실하게, 확률변수 \(X_1\)과 \(X_2\)에서 하나씩 draw해서 서로 더했을때 그 합이 \(y\)가 될 확률을 써 보는 것이다. \(X_1\)에서 \(x\)가 나왔다면 \(X_2\)에서는 \(y-x\)가 나와야 한다.
\(P(Y=y) = \sum_x P(X_1=x) P(X_2=y-x)\) ...(ii)
컨볼루션이라고 부르는 익숙한 연산이다. 독립인 확률변수 두 개의 합의 분포는 원래의 확률분포 두 개의 컨볼루션인 것. 그렇다면 (i)에서 (ii)를 직접 유도할수 있을까? 델타함수의 성질을 잘 써서 marginalize를 두번 해주면 된다 (상단 pdf에서 자세히).
이렇게 \(Y=X_1+X_2\)라는 추상화된(?) 표현을 확률분포함수의 언어로 elementary하게 풀어 써서 이리저리 갖고 놀아 봤다. 그저 덧셈기호이지만 뜯어보면 꽤 복잡한것들이 숨어있는 셈이다. 그러면 우리는 이 표현을 어떻게 실제 숫자들간의 덧셈처럼 쉽게 받아들이고 사용하는가? 그리고 그래도 왜 문제가 없는가? 몇가지 생각을 해봤다.
(1) Draw한 샘플들(곧 숫자들)의 덧셈과 대응되므로.