ADVERTISEMENT
오피니언 문병로의 알고리즘 여행

데이터의 질감을 느낄줄 알아야 한다

중앙일보

입력

지면보기

종합 27면

문병로 서울대학교 컴퓨터공학부 교수

문병로 서울대학교 컴퓨터공학부 교수

집에 누수가 생기면 대부분 전문가를 부른다. 그렇지만 전문가라 해도 “여기서 물이 새요”라는 현상만 듣고 단번에 문제를 해결하기는 힘들다. 전문가가 여기저기를 쑤셔보면서 비용은 올라간다. 전문가의 효율적 문제 해결을 위해 선행되어야 할 것은 ‘집주인의 관찰’이다. 우리가 일상에서 저지르는 이런 무심함이 첨단 기술을 구사하는 곳에서도 발생한다.

현대 건축의 모태가 된 독일의 바우하우스는 신입생들에게 우선 건축, 공예의 재료를 가지고 놀게 했다고 한다. 재료의 질감을 느끼는 것으로부터 훈련을 시작한 것이다. 아마존의 제프 베조스는 “우리는 모든 것을 고객으로부터 시작해서 위로 올라간다”고 했다. 최하단 데이터의 질감을 느끼는 것으로부터 비즈니스가 시작된다는 말이다.

빅데이터의 시대다. 데이터가 쏟아져 나온다. 과거에 존재하지 않았던 스타일의 데이터, 과거에 존재하지 않았던 분량의 데이터가 쏟아져 나온다. 이런 데이터들로 인해 새로운 난제가 많이 생긴다. 이런 문제들을 위한 다양한 첨단 기법들이 있고, 대학은 이런 기법들을 체계적으로 배우는 장소다. 흔히 빅데이터 프로젝트의 성패를 가르는 것이 첨단 기법의 적용 여부라고 생각하지만 반만 맞는 말이다. 많은 경우 그 이전에 이미 실패하고 시작한다. 이것은 데이터를 대하는 습관이나 호기심과 관계가 있다.

알고리즘 여행 3/13

알고리즘 여행 3/13

아주 똑똑한 학생이나 엔지니어도 자신이 만지는 데이터에 대해 놀라울 정도로 호기심을 보이지 않는 경우가 많다. 대부분 뭘 궁금해해야 하는지를 모른다. 데이터를 그냥 가로 세로 줄 맞춘 다음 블랙박스 모델에 집어넣으면 첨단 알고리즘이 알아서 해줄 것이라 기대한다. 당연히 실패한다. 그래서 필자는 프로젝트에서 데이터의 공간 변환, 공간 탐색 등의 전문적 단계에 진입하기 전에 학생들에게 데이터를 가지고 온갖 자질구레한 관찰을 해보도록 강제한다. 데이터의 질감을 느끼는 단계다. 이 과정에서 통찰과 관점이 생긴다. 이 단계를 충분히 거치지 않은 문제의 모델링은 문제를 쓸데없이 어렵게 만들거나 왜곡시킬 수도 있다.

논문을 쓰기 좋은 형태의 구조를 가진 공개 데이터들의 상당수가 데이터의 질감을 느끼는 습관을 기르는 데는 충분하지 않다. 정말 도전적인 데이터는 기업의 비즈니스로부터 나온다. 결과에 대한 압박도 확실하다. 정부의 지원을 받는 프로젝트는 성공률이 98%를 넘는다. 이 환상적인 수치는 평가 체계가 관대하기 때문이다. 평가의 결과가 담당 공무원의 업적 평가와 결부되기 때문에 구조적으로 그럴 수밖에 없다. 본질에 접근하지 못해도 성공으로 간주될 수 있다. 자칫 프로젝트에 대한 습관이 잘못 들 염려도 있다.

기업 프로젝트는 한 편의 보고서로는 충분하지 않다. 학생들이 제대로 된 문제 해결의 훈련을 하기 위해서는 기업 데이터를 많이 접하도록 해야 한다. 기업 데이터는 공개 벤치마크 데이터처럼 완벽하게 정돈되지 않은 경우가 많다. 대부분 안개처럼 뿌연 상태에서 시작한다. 데이터를 이리저리 만져보고 질감을 느끼기 시작하면서 문제의 구조가 보이고 모델링에 대한 단초가 잡힌다.

첨단 기법을 구사하는 것도 중요하지만 그 이전에 데이터를 대하는 습관 형성이 필요하다. 무얼 궁금해해야 하는지를 아는 것은 쉬워 보이지만 많은 엔지니어들에게 가장 결여된 것 중의 하나다. 데이터에 대한 제대로 된 관찰이 선행되지 않으면 불필요한 곳에 첨단 기법을 써서 오히려 품질을 떨어뜨리기도 한다. 어느 정도의 기술까지만 적용해야 할지 아는 것도 실력이고 축적이 필요한 능력이다.

문병로 서울대 컴퓨터공학부 교수