근데 직관이라는 게 경험의 축적도 상당히 영향을 미친다는 점에서, 같은 카테고리 내의 문제에 대한 경험이 많은 사람이라면 최소한 crucial 한 요인들을 배제하는 경우는 거의 없지 않을까?
물론 해당 분야의 전문 지식은 매우 중요하다. 아무래도 해당 분야의 기반이 전혀 없는 상황에서 접근하는 것보다는 있는 편이 당연히 유리하다. 하지만 많은 시간 쌓아온 직관도 모든 중요한 정보를 골라낼 수는 없다.
신약 개발을 하고 임상 실험을 하는 것을 생각해보자. 신약 개발은 제대로 검증되지 않는다면 심각한 경우 정말 큰 규모의 참사가 일어날 수 있기 때문에 검증을 굉장히 빡빡하게 하는 편이다. 당연히 이 과정에는 도메인 날리지(domain knowledge)를 충분히 숙지한 전문가들이 투입되어 약이 어떤 조건에서 부작용을 일으키는지 목록을 만들고 예측하지 못한 부작용이 없도록 많은 노력을 기울인다. 그런데 이렇게 해서 정말로 "crucial 한 요인"들을 다 잡아낼 수 있을까? 혹은 대부분 잡아낼 수 있을까?
얼마 전 Data-Driven Prediction of Drug Effects and Interactions이란 이름의 논문이 발표되었다. 논문을 간단히 요약하면 "데이터 마이닝 기법을 도입하여 기존에 발견할 수 없었던 수백 가지의 부작용들을 발견할 수 있었다." 정도가 되겠다*. 이건 단순히 "Machine learning FTW!" 수준의 이야기에서 끝나면 안 된다. 중요한 것은 결국 현실에서 만나게 되는 복잡한 문제들은 도메인 날리지를 기반으로 하여 모델링이 되고 여기에는 언제나 생각지 못한 구멍이 있을 것이라는 거다. 위에서 언급한 경우에는 이 부족한 부분을 머신 러닝을 활용해서 메꾸려고 시도한 것이지만 당연히 아직도 알려지지 않은 부작용은 굉장히 많을 것으로 생각한다.
신약 개발처럼 굉장히 광범위한 검증을 거치는 경우에도 이처럼 생각지 못한 구멍이 많이 발생하는데 그렇지 않은 분야는 그 상황이 훨씬 심할 것이라는 게 내 생각이다. 내가 하고 싶은 말은 도메인 날리지가 나쁘다는 것이 아니라 그것만으로 현실 세계의 문제를 모델링하고 풀이를 제시하는 것은 부족하다는 것이다. 뭔가 놀라운 기술적, 방법적 혁신이 있지 않는 한 아직 이 문제를 푸는 것은 요원해 보인다.
*: Algorithm Finds Thousands of Unknown Drug Interaction Side Effects

유익한 내용이군. Machine Learning FTW!
처음에 제목 보고 "도메인을 왜 날리지" 라고 생각..
마지막 문단에 공감. 정말 생각지도 못한 구멍 혹은 기타 등등의 것들이 많이 튀어나오는 상황을 어떻게 해결해야할지 고민이 많다.
하지만, 또한 그러한 이유로 인해서 아직 우리가 밥벌어먹고 살아갈 여지가 남아있는거지.. :-P
난 인간이 배재되도 좋을 정도의 기술적 발전은 좀 꺼려지는 편이라. 그렇게 되어서 인간이 '생산'이 아닌 다른 활동을 하면서 즐겁게 살 수 있게되면 좋겠지만, 현실은 시궁창이라 그렇게 되면, 일부의 인간만 그렇게 살고 나머지는 길에 나앉게 될테니까 ㅡ.ㅡ;