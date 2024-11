‘빅데이터 전문가’ 조성준 교수가 ‘삼성갤럭시 노트 Ⅱ’와 ‘S펜’을 들고 일상 속에서 찾아볼 수 있는 데이터 마이닝 사례에 대해 들려주고 있다.

“지금은 사람이 자신이 원하는 정보를 찾아가는 형태라면 미래엔 정보가 사람이 있는 곳을 찾아 다니며 그에게 필요한 맞춤형 정보를 제공하는 거죠.”

‘빅 데이터(Big Data)’를 서울대 조성준 산업공학과 교수는 이렇게 해석했다. 그는 빅 데이터 속에서 생활과 산업에 적용할 수 있는 다양한 법칙을 발견하는 ‘빅 데이터 마이닝’ 전문가다. 정보산업의 화두가 된 빅 데이터의 활용과 미래에 대해 삼성전자 ‘갤럭시노트 Ⅱ’의 도움으로 지난 17일 인터뷰를 했다.

-빅 데이터란 무엇이며, 그 속에서 무엇을 찾는 일인가.

“기존 데이터 관리 도구로는 수집·저장·검색·분석하기 어려운 방대하고 복잡한 자료를 말한다. 기존 자료와의 차이점이라면 자연언어 텍스트(text)·사진·동영상·위치정보 등 정형화되지 않은 자료까지 포함한다는 것이다. 이를 분석해 가치 있고 일정한 현상을 찾아내는 작업이 빅 데이터 마이닝이다.”

-그와 관련한 예를 하나 들어달라.

“수학적 귀납법과 같은 것이다. 예를 들어 어떤 학교에 가서 ‘이 곳 학생들은 옷을 이렇게 입는구나’라고 생각할 수 있다. 이날 가진 첫 인상이 한 이미지로 굳어지면 일반화의 오류에 빠지게 된다. 오류를 없애려면 학교에 반복해 가보면 학생들의 이미지가 재정립된다. 이렇게 쌓인 수 많은 정보가 빅 데이터다. 반복할수록 추론 결과의 정확도가 더 높아진다.”



-기존 여론조사 방식과 다른 점이라면.

“선거기간 중 유권자의 생각을 묻거나 기업이 신제품에 대한 고객 반응을 조사하는 경우가 많다. 이런기존 방법엔 취약점이 있다. 기업이 조사에 응하는 사례비를 지급하면 대상자가 솔직하게 답하지 않는다거나, 질문자가 제한하는 ‘틀’ 안에서 선택을 강요받기도 한다. 조사 대상도 샘플로 불리는 집단에 한정되는 한계가 있다. 그러니 결과가 왜곡될 수 밖에 없다. 반면 빅 데이터 분석은 블로그나 트위터에 자유롭게 올린 개개인의 생각까지 분석하며 전수조사도 가능해 훨씬 솔직하고 의미 있는 결과를 얻을 수 있다.”

-분석 결과를 실생활에 어떻게 활용할 수 있나.

“하루 4시간을 운전해 출퇴근 하는 사람이 있다고 치자. 영화를 즐겨보지 않는 이 운전자에겐 영화표보다 주유할인 쿠폰이 더 좋은 선물이 된다. 해외 출장이 잦은 사람에겐 공항 가는 길목에서 해외 무선 인터넷 할인 서비스를 제공하는 식이다. 온라인 쇼핑몰에 가면 다른 고객들이 많이 고른 상품을 추천하는 서비스가 그 한 예다. 연관 검색어를 함께 보여주는 구글(Google) 사이트가 빅 데이터 마이닝 기술을 보여주는 대표적인 사례다. 고객들의 취향을 파악해 그에 맞는 상품이나 서비스를 제공하고 싶은 기업이 늘고 있어 데이터 마이닝 수요가 증가할 것으로 보인다.”

-데이터 마이닝을 활용하면 고객별 특성·행위·구매성향·관심사에 따라 맞춤형 서비스가 가능해지겠다.

“정치를 예로 들면 빌 클린턴 전 미국 대통령 캠프에서 처음 쓴 방식이다. 미국은 지역에 따라 종교·낙태·총기·외교 등의 이슈가 얽혀있고. 직업·나이·인종마다 관심사가 다르다. 이를 조합해 미국 유권자를 7개 그룹으로 분류했다. 이어 해당 지역에 가서 가장 적합한 이슈에 대해 얘기하면 유권자들은 ‘내가 듣고 싶은 얘기를 한다’는 느낌을 받게 된다. 정치도 결국 마케팅인 셈이다.”



-미국 보스턴 마라톤 대회 폭탄테러 용의자를 찾는 과정에서도 거리·상점의 감시카메라(CCTV), 관중의 휴대전화카메라, 이동통신기지국 접속기록 등 수 많은 데이터가 분석됐다. 데이터를 분석해 범죄가 일어날 시간·장소·관계자를 예측해 단죄하는 공상과학 영화 ‘마이너리티 리포트’를 보는 것 같다.

“데이터 마이닝으로 범인의 행동 성향을 분석해 범죄심리를 추론하면 보안과 범죄 예방에도 활용할 수 있다. 예를 들어 도난 당한 신용카드의 도용 경로를 분석해보니 카드를 훔친 범인은 가장 먼저 차를 몰고 주유소에 가서 만원 정도 주유하는 것으로 밝혀졌다. 소액을 지출하면서 훔친 카드가 사용가능한지 파악하고 들켰을 때 도망가기도 편해서다. 이후 사용 가능하면 백화점으로 가는 식이다. CCTV 화면 중 범죄라고 판단될 확률이 높은 영상을 데이터마이닝 하는 연구도 진행 중이다. 도망가거나 쫓기는 등 빠르게 움직이는 영상을 선택적으로 마이닝하는 기술이다.”

-빅 데이터를 활용해 연구하고 있는 것이 있다면.

“삼성전자의 반도체 공정을 측정하고, 시스템가전사용 행태를 분석하는 등 기업과 다양하게 협업하고 있다. 반도체 같은 첨단 제품은 제조공정 상의 일정한 특성을 분석해 보다 완벽한 제조 환경을 만들 수 있다. 불량품도 예방할 수 있다. 최근 갤럭시 노트 Ⅱ를 쓰고 있는데 ‘S펜’의 사용 행태도 데이터 마이닝을 해보면 재미있겠다는 생각이 든다. 학회나 세미나 때 특유용하게 쓰고 있다. S펜으로 글을 쓰면 휴대전화로 딴짓을 하는 듯한 오해도 없앨 수 있고 공유할 수도 있어 편리하다. ‘S플래너’와 ‘이지 메모’ 기능으로 일정 관리는 물론 약속 장소도 손으로 그려 넣을 수 있어 편리하다.”



-고교생에게 데이터 마이닝 교육도 하고 있다고 들었다.

“한국BI데이터마이닝학회와 함께 방학마다 고교생 대상 데이터 마이닝 캠프를 개최하고 있다. 지난 4년간 2300여 명이 참여했다. 사진 앞뒤에 기록할 수 있는 갤럭시 노트 Ⅱ ‘포토노트’ 기능을 이용하면 학생들과의 추억과 주고 받은 내용을 간직하는데 유용할 것 같다. ‘멀티 스크린’ 기능은 동영상을 보면서 메모도 하고 메시지도 확인할 수 있어 편하다.”



-앞으로의 계획은.

“빅 데이터를 분석해 개인 창업을 돕고 싶다. 일명 ‘만만 프로젝트’다. 자전거·축구·낚시 등 마니아들의 필요를 파악해 맞춤형 서비스를 제공하는 것이다. 1만명이 1만원씩 지출하면 1억원의 시장이 형성된다. 데이터 마이닝으로 이런 직업을 찾아 구직자에게 컨설팅하는 사회적 기업을 만들어볼 생각이다. 이런 아이디어가 떠오를 때면 S펜으로 곧장 기록해둔다. 이를 활용해 데이터 마이닝을 사회와 함께 나누고 싶다.”

●조성준 교수 약력=▷ 서울대 공과대 산업공학과 데이터마이닝연구실 지도교수 ▷ 서울대 데이터과학과 지식창출 연구센터 공동연구원 ▷ 빅데이터 포럼 자문위원장 ▷ 미국 워싱턴대 전산학 석사 ▷ 미국 메릴랜드대 전산학 박사 ▷ 전 미국 워싱턴대 비즈니스스쿨 방문교수 ▷ 전 POSTECH(포항공과대) 컴퓨터공학과 교수 ▷ 전 한국 BI데이터마이닝학회장 ▷ International Journal of Cognitive Biometric 편집위원 ▷ Samsung SDS Journal of IT Services 편집위원

<박정식 기자 tangopark@joongnag.co.kr 사진="삼성전자">박정식>