1. 논문 소개: Quasi-Newton optimizer를 이용하여 system snapshot을 바탕으로 governing equation의 계수를 fitting하기
이 문단에서 소개할 문헌([1], arXiv 링크)에서는 Burger's equation, KdV equation, Kuramoto-Shivashinski equation, Nonlinear Schrodinger's equation, Navier-Stokes equation 등의 다양한 편미분방정식에 대하여, governing equation의 꼴을 알고 있는 상황에서 데이터가 주어졌을 때 그 계수를 예측한다.
보다 구체적으로 서술하자면, 이 논문에서 수행하는 task는 어떤 특정 시각에서의 system의 snapshot에서 수십 개의 data point를 임의 추출하고, 아주 짧은 시간이 지난 후의 snapshot에서 수십 개의 data point를 임의 추출(그 추출 위치가 앞과 같을 필요는 없다)하여 그 둘을 비교함으로써 governing equation의 각 term의 계수를 맞추는 것이다. 그 방식은 target time 근방에서 PDE를 선형 연산자로(비선형 방정식이라면 선형화하여) 표현한 뒤 Gaussian prior를 latent solution으로 설정한 뒤, parameter들을 조절해 가며 error function을 줄여 나가는 방식이다.
그 결과는 대체로 성공적이다. 여기에서 사용된 optimization method는 deep하지 않은, 비교적 간단한 전통적 machine learning method인 L-BFGS이다. 이는 governing equation의 꼴을 알고 있음으로 인하여 문제의 탐색 범위가 상당히 축소되는 것을 고려했을 때 아주 magical한 결과까지는 아니다.
그럼에도 불구하고, snapshot의 full data를 사용하는 것이 아니라, 지극히 일부에 해당하는 수십 개의 점들만으로 전체의 dynamics를 적은 오차로 복구해 낼 수 있다는 것은 큰 의의가 있는 것으로 생각된다.
그러나 한편으로는, Kuramoto-Shivashinski equation과 같이 chaotic한 system의 경우 계수가 아주 약간만 달라도 큰 오차가 발생하기 때문에, long-term evolution을 예측하기는 어렵다는 한계점 또한 존재한다.
2. 논문 소개: Deep Neural Network를 이용하여 governing equation의 꼴을 모를 때 데이터를 바탕으로 시스템의 evolution을 extrapolation하기
이 문단에서는 위에서 소개한 문헌 [1]과 같은 저자의 후속 논문([2], arXiv 링크)에 대해 소개한다. 이 블로그의 앞선 글(Why is artificial neural network successful?: explanation based on spectral ergodicity)에서 언급하였듯, 비선형의 활성함수를 갖는 인공신경망이란 결국 수많은 동일한 비선형 함수들이 scaling, biasing되고 서로 합성됨으로써 만들어진 하나의 함수일 뿐이며, 어떠한 매우 복잡한 함수를 근사적으로 표현하고자 하는 것이다.
본 문헌[2]에서도 이러한 관점에서 접근하여, 2개의 신경망을 학습시킴으로써 PDE의 evolution을 예측하고자 한다. 앞선 문헌[1]과의 차이가 있다면, 여기에서는 시스템의 특정 시각 t까지의 솔루션을 알고 있으나 governing equation은 그 계수뿐만 아니라 꼴에 대해서도 알지 못할 때, 특정 시각 t 이후의 솔루션이 어떻게 될지를 extrapolation하여 예측하는 것이다. 탐색 범위 자체가 [1]에 비해 많이 넓을 것이라고 예상해 볼 수 있다.
먼저, 저자가 제시하는 한 선행 연구에서는 편미분으로 표현되는 가능한 모든 candidate term을 나열해 둔 뒤 그 계수들을 예측한다. 이러한 방법은 결과가 interpretable하다는 점에서 큰 장점이 있으나, (i) numerical differentiation이 제대로 되지 않을 수 있다는 것, (ii) task의 크기가 커짐에 따라 필요한 candidate term의 수가 기하급수적으로 늘어나며, \( \sin( \alpha u(x)) \)와 같은 특수한 꼴의 term이 들어가 있을 경우에는 parameter를 예측하지 못한다는 것 등의 단점이 있다.
따라서 저자는 솔루션 \( \mathcal{U} \)와, 편미분방정식을 연산자 형태로 간단하게 표현했을 때 그 연산자에 해당하는 \( \mathcal{N} \)라는 두 함수를, universal approximator로서의 neural network로 근사시키는 방법론을 택하기로 한다. 이 때 저자는 솔루션 \( \mathcal{U} \)의 도함수를 구하기 위해 통상적인 numerical differentiation 대신에 automatic differentiation이라는 방법을 도입한다. 이 방법은 우리가 수행하고자 하는 task에 부합하는 동시에, numerical differentiation에 비해 더 적은 data point를 필요로 하기도 한다. 따라서 위 선행 연구의 단점 (i)이 극복된다.
또한, 편미분방정식에 해당하는 연산자 \( \mathcal{N} \)을 특정한 몇 개의 candidate term들의 조합만으로 표현하고자 시도하기보다는, neural network를 이용하여 근사시킨다면 더욱 넓은 범위를 탐색하게 되므로 general하게 높은 성능을 기대할 수 있다. 이렇게 위 선행 연구의 단점 (ii)이 극복된다.
이러한 setting 하에서 loss function(error function)을 다음과 같이 정의하고, Tensorflow를 이용하여 학습시킴으로써, 시스템의 특정 시각까지의 evolution system의 future evolution을 predict할 수 있다. 먼저 Deep hidden physics model \(f\)를 \(f = \mathcal{U}_t - \mathcal{N}(t, x, \mathcal{U}, \mathcal{U}_x, \mathcal{U}_{xx}, ...) \)로 정의하면, \(f\)가 0에 가까울수록 주어진 PDE를 정확하게 따르게 된다. 또한 이렇게 학습된 \( \mathcal{U} \)가 실제 training data \( \mathcal{U}^i \)와 가까워야 한다. 만약 두 조건 중 후자만 있다면 overfitting이 발생할 것으로 생각해 볼 수 있다. 결과적으로 loss function을 다음과 같이 정의한다.
\[ \sum_{i=1}^{N}{ ( | \mathcal{U}(t^i, x^i) - \mathcal{U}^i |^2 + |f(t^i, x^i)|^2 ) }\]
이러한 loss function을 줄여 나가는 방식으로 training시키면 \( \mathcal{N}, \mathcal{U} \) 양쪽 모두에 대해 학습이 일어나게 되며, 따라서 system의 evolution에 대한 예측이 가능해진다.
그 결과는 대체로 성공적이다. 그러나 Kuramoto-Shivashinski equation에 의해 지배되는 system의 경우에는 이러한 방법론으로 제대로 된 학습이 이루어지지 않았으므로 저자는 이를 후속 연구 과제로 남겨두고 있다. 이 equation에 대한 model-free prediction은 reservoir computing을 활용해서 연구한 다른 그룹에 의해 성공적으로 이루어졌다[3].
[1] Raissi, Maziar, and George Em Karniadakis. "Hidden physics models: Machine learning of nonlinear partial differential equations." Journal of Computational Physics 357 (2018): 125-141.
[2] Raissi, Maziar. "Deep hidden physics models: Deep learning of nonlinear partial differential equations." The Journal of Machine Learning Research 19(1), 932-955.
[3] Pathak, Jaideep et al. "Model-free prediction of large spatiotemporally chaotic systems from data: A reservoir computing approach." Physical review letters 120.2 (2018): 024102.
No comments:
Post a Comment