[트랜D]길이 잘 든 기계

중앙일보

입력

트랜D

명절을 맞아 친정과 시댁을 오가며 일을 거들다 보면 늘 탐이 나는 아이템이 하나 있다. 바로 길이 잘 든 후라이팬. 문득 요리에 욕심이 난 필자도 무쇠로 만든 팬을 야심차게 사서는 기름을 발라 달궈가며 길들이기에 몇 차례 도전했었다. 하지만 판 위에서 튀겨지 듯 맛있게 익어야 할 계란후라이는 바닥에 덕지덕지 붙어 타버렸고, 약이 잔뜩 오른 필자는 오늘도 각종 소셜미디어를 뒤적이며 ‘후라이팬 성공적으로 길들이는 법’을 모아 보고 있다.

유재연의 인사이드 트랜D

지난한 과정을 거쳐 내린 결론. 길이 잘 든 후라이팬의 비결은 그만큼 자주 달구고 제때 씻어 잘 관리한 데에 있는 것 같다. 단순히 후라이팬의 종류가 코팅팬이냐 무쇠팬이냐 만의 문제도 아니다. 지지고 볶고 덥히고 튀긴 많은 시간들이, 어머니의 손목 위 기름에 덴 자국과 함께 반질반질한 후라이팬을 만든 것이다. 후라이팬만큼 시간과 정성과 사람의 손을 많이 타는 것이 있으니, 그것은 바로 데이터 모델링이다.

데이터 모델링에도 나름의 통일된 레시피는 있다

데이터 모델링은 그 프로세스가 꽤 정형화돼 있다. 해결하고자 하는 문제를 설정하고 나면, 목표 데이터를 정해 수집하고, 모델이 학습하기 좋게 정제하고, 해당 데이터의 성격에 적합한 알고리즘을 골라 설계하고, 사용자의 전문성(domain knowledge)을 바탕으로 결과물을 해석하는 과정을 거치면 된다.

예를 들어 의료 부문에서 주로 쓰이는 MRI(자기공명영상)나 CT(컴퓨터 단층촬영)사진에 대해 판독을 하는 모델을 만들고자 하면 다음 과정은 필수적으로 거치게 된다. 사진을 모으고, 다른 환경에서 촬영할 경우 발생 가능한 외부 요인은 없는지 살펴보고, 모델을 돌려보고, 결과물이 나오면 이를 의학 전문가들과 개발자들이 함께 보며 변수를 조정하고, 다시 모델을 돌려보며 결과를 해석하는 과정을 진행한다. 마케팅에서도 마찬가지다. 가령 소셜(SNS) 데이터 기반 트렌드 분석을 하고자 하면, 목표 커뮤니티의 텍스트와 댓글 데이터를 긁어 모으고, 감정 사전을 반영하거나 사내 데이터를 결합해 보는 등 데이터 분석 방법을 총동원해 유의미한 값이 나오는 모델을 선택하고, 이를 기반으로 인간 전문가가 결과 값을 골라 ‘어떤 트렌드를 예측할 수 있다’고 해석해 낸다.

하지만 안타깝게도 문제를 설정하고 그에 맞는 데이터를 고르는 것은 인간의 몫이다. 그래도 문제 해결방법을 찾기 위해 알고리즘을 선택해야 하는 순간에는 여러 모델링과 통계 방법을 만들어두고 여기에 데이터를 한 번 넣어보고 돌려보는 툴이 꽤 많은 플랫폼에서 제공되고 있다. 기계학습에 대한 기본적인 이해도가 있는 상태에서 목표 데이터를 잘 고민해 골라본 뒤 적은 수라도 다듬어 넣어보면 '이게 정말 설계해서 해볼 만한 일인가?'를 가늠할 수는 있는 것이다.

구글에서 제공하는 '왓 이프(what-if) 도구(tool)'. 데이터를 다양한 모델에 넣어보고, 변수를 바꾸거나 데이터에 변화가 생겼을 경우 어떠한 형태의 통계적 변화가 생기는지 알아볼 수 있다.

데이터를 바꿀까, 새 모델링을 시도해볼까

그렇다면 적합한 데이터는 어떻게 골라야 할까? 사례 중 하나로 '소셜 데이터를 정치적 성향에 대한 여론조사용도로 쓸 수 있느냐'는 이야기가 최근 많이 나오고 있다. 선거철을 앞두고 저마다 표심을 확인하기 위한 시도인데, 이에 대해서는 데이터 분석가나 알고리즘 설계자마다 의견이 조금씩 엇갈린다. 가령 트위터의 데이터를 모아 분석한다고 하면 "과연 그 공론장에서 오가는 대화가 전체 표심을 충분히 대표할만 한가?"에 대한 의문이 가장 먼저 제기된다. 네이버나 카카오(다음)의 뉴스 댓글창 의견을 긁어 모은다고 해도 "노이즈를 걸러내는 데 손이 더 많이 갈 것"이라는 말부터 나온다. 쓰레기를 넣으면 쓰레기가 나오는 이치대로, 오염된 텍스트를 굳이 비용을 들여가며 분석할 필요가 있느냐는 자조섞인 목소리가 나오는 것도 이런 이유에서다.

하지만 다른 한 편에서는 최근의 알고리즘 기술과 연구 동향을 이야기하며 그래도 해볼 만 할 것이라고 보기도 한다. 소셜미디어 데이터의 인기가 주춤해졌다고는 해도, 최근 나온 한 논문에서는 토픽(주제) 모델링과 감정 분석을 엮는 방식으로 소셜미디어 데이터를 활용해 내기도 했고 (Pathak et al., 2021), 트위터와 위키피디아 등을 소스로 삼은 뒤 지식그래프(knowledge-graph) 임베딩 기법을 활용해 높은 신뢰도의 모델을 형성하는 프레임워크(framework, 체계)를 제시한 연구도 나왔다 (Abu-Salih et al.(2021)). 어찌됐든 이렇게 풍부한 양의 데이터가 매일 형성되는 것을 가만 두고 보지만은 않는 것이 연구자들의 습성인지라, 모델링 방법을 바꾸든 가중치를 새로 계산하든 갖은 방식을 동원해 이 버려지는 데이터를 되살려낼지도 모른다는 희망섞인 목소리도 계속 나오고 있다.

'오픈AI 코덱스(OpenAI Codex)' 시험용 화면 중 일부 캡쳐. 좌측 하단에 사람이 자연어로 요구사항을 쓰면, 이 메시지가 우측 창에서 자동으로 코드화되고, 그 실행상황이 중앙 화면에서 구현된다.

기계가 다 해낼 미래

이런 가운데 슬슬 기계가 직접 코드도 짜는 시대에 돌입하고 있다. 최근 나온 오픈AI(OpenAI)의 코덱스(Codex) 시스템은 높은 자연어 이해력을 바탕으로 사람의 말을 적합한 코드로 곧장 옮기는 데에서 꽤 놀라운 장면들을 선보이고 있다. 가까운 미래에는 사람의 말에 따라 데이터도 골라 적합성을 평가하고, 균형을 맞추기 위해 가상의 데이터를 효과적으로 생성하고, 그 귀찮은 정제작업까지 말끔하게 해 줄 든든한 알고리즘도 나오지 않을까 기대된다. 데이터 모델링, 더 나아가 알고리즘 설계와 고난도 프로그래밍까지, 인간이 기계를 쉬이 길들일 날이 어서 오기를 바랄 뿐이다. 개인적으로는 후라이팬을 길들일 로봇의 개발이 무엇보다도 시급하다.