그런데 이상치 가운데는 정말 의미 있는 수치도 있다. 예를 들어 신용카드가 해외에서 복제돼 쓰이는 경우가 여기에 속한다. 분명 사용자의 최근 기록은 모두 한국인데, 몇 시간 만에 프랑스에서 카드가 긁혔다면 그것은 사기 거래 발생 가능성을 알려주는 지표가 된다. 주식에서도 마찬가지다. 갑작스러운 상승, 하락의 지표는 향후 주가 예측을 위해 결코 삭제돼선 안 될 중요한 요소 중 하나다. 하지만 이러한 ‘이상한 로그’의 발생을 실시간으로 아는 것도, ‘이상한 수치’의 중요도를 순간적으로 판단하는 것도 인간만의 힘으론 꽤 힘들다.
유재연의 ‘인사이드 트랜D’
쓰레기 데이터와 유의미한 데이터 구별 짓기
만물상자 ‘딥러닝’과 이상치의 만남
부정적인 상황을 골라내는 것뿐 아니라, 갑작스러운 상황에 대한 대처용으로도 이상치 데이터는 다채롭게 쓰일 수 있다. 인공지능 업계에서 눈여겨보는 주식 분석의 경우, 지금까지는 사회에서 발생하는 돌발 상황에 대한 실시간 주가 예측에 약한 모습을 보여왔다. 하지만 최근에는 비지도 학습(unsupervised learning) 기반 알고리즘이 높은 성능을 보이고, 여러 외부 데이터와의 결합 분석도 활발하게 진행돼 예측력 또한 점점 나아지는 모양새다. 이를테면 실시간 뉴스의 텍스트를 분석해 주가 분석에 활용한 연구가 있는데, 이 경우 예기치 못한 상황, 즉 ‘이상치’에 대한 분석 반영을 꽤 도울 수 있었다고 한다. 특이한 사건의 발생과 주가 등락을 짝지어 주식 예측 알고리즘의 성능을 향상하는 것이다.
산업 현장의 딥러닝 분석을 통한 대처도 참고할 만하다. 지난달 보스턴컨설팅그룹(BCG)의 패션업계 가격 인하 전략 리포트에 소개된 예시가 흥미롭다. 해당 업체는 2년간의 재고 관리 데이터와 일일 판매 기록을 토대로 적정 가격 인하율에 대한 예측 모델링을 진행했다고 한다. 이후 이 예측 모델에 가격 인하 시나리오를 실시간으로 입력하고, 이를 토대로 알고리즘 성능도 향상했다. 어떠한 돌발 상황이 발생해도, 유연하게 세일즈 전략을 추천받을 수 있도록 하는 시스템을 마련한 것이다.
비즈니스 활용을 위해선 일단 기록이 우선
1) 데이터 수집 및 정리: 변수를 상당히 구체적으로 정리한다. 가격과 수량 데이터, 재고 현황은 물론이고, 상품들의 속성(사이즈, 스타일, 색상, 매장 내 배치 등)까지도 세세하게 기록한다.
2) 분석 모델링: 그동안 재고에 대한 가격 변경 횟수나 할인 형태 같은 규칙들을 매개 변수화한다. 딥러닝에서보다 포괄적이고, 정확한 분석을 가능하게 한 요인이다.
3) 현장 전문가의 활용: 최종적인 의사결정에 사람의 직관을 적극적으로 활용한다. 세부적인 요율 조정과 같은 일은 현장 전문가의 몫이다.
코로나19로 예측이 너무나도 어려운 시대에 들어섰다. 다만 매일매일 발생하는 이 갑갑하고 서글픈 수치들은 그저 ‘이상한 수치’만은 아니다. 앞으로 언제든 마주할 수 있는 ‘익숙한 존재’가 될 수도 있다. 시장 상황 예측도, 고객 행동 예측도, 결국 모두 데이터가 있어야 제대로 할 수 있다. 한 치 앞도 내다보기 힘든 이 상황을 데이터로 잘 축적해두어야 한다. 기업혁신의 기회가 바로 지금이다.
유재연 / 서울대학교 융합과학기술대학원 박사과정 (you.jae@snu.ac.kr)