‘유령신호’ 먼저 잡는 능력, AI시대에도 인간 직관력 중요

중앙선데이

입력

이준기의 빅데이터

빅데이터

지난주 평소 존경하고 만나보고 싶었던 분이었던 제임스 사이먼스 박사가 별세했다. 대부분의 사람들은 처음 접하는 이름일 수 있다. 하지만 컴퓨터와 통계를 활용해 주식 거래를 하는 퀀트투자에 관심 있거나 자산을 운용하는 분야에 몸담고 있는 사람이라면 고인이 남긴 전설적인 투자 수익률에 대해 들어본 적이 있을 것이다.

20세에 미국 매사추세츠공과대학(MIT) 수학과를 졸업하고, 23세에 캘리포니아 버클리대에서 박사 학위를 받은 사이먼스 박사는 천재 수학자였다. 그는 수학 기하학 분야의 노벨상이라 불리는 오즈월드 베블런 상을 받기도 하였다. 그가 40세에 창업한 르네상스 테크놀러지는 1988년 이후 지난 30여 년 동안 연평균 66%라는 엄청난 수익률을 기록하였다. 그 자신도 약 41조원 상당의 부를 이뤘으며, 말년에는 재산의 절반 이상을 사회에 공헌하는 자선사업가로 명성을 높였다.

그가 남긴 투자 수익률과 방식들은 전무후무해 지금도 많은 사람들은 그의 성공 비밀에 큰 관심을 쏟고 있다. 필자도 그에 관한 책 『시장을 풀어낸 수학자』가 처음 출간됐을 때 번역본이 나오기를 기다리기 어려워 아마존에서 책을 사서 읽었던 기억이 있다. 그의 펀드는 성공 보수가 44%, 수수료가 5%로 높았던 것으로도 유명하다. 일반적인 헤지펀드의 경우 성공 보수가 20%, 수수료는 2% 수준이다. 이를 비교해보면 얼마나 많은 사람들이 그의 펀드에 가입하고 싶어했는지를 알 수 있다. 사이먼스 박사는 자신의 회사에 재무 전문가나 경제학자를 고용하지 않았고 오직 수학자, 기상학자, 컴퓨터 및 데이터 전문가만을 고용하였다. 이는 투자에 있어 일반적으로 통용되는 워런 버핏이 추구하는 주식의 가치분석 또는 조지 소로스가 활용하는 매크로 통찰력과는 전혀 다른 방법을 썼기 때문이다.

천재 수학자의 전설적 투자 수익 비결

제임스 사이먼스 박사가 생전에 하버드대에서 강의를 하고 있는 모습. [사진 유튜브]

그가 어떻게 높은 수익률을 유지했는지는 여전히 비밀로 남아있다. 그의 인터뷰를 몇 번 보았는데 “어떻게”라는 질문이 나왔을 때, 항상 말을 얼버무렸던 것으로 기억한다. 하지만 시간이 지나면서 그 비밀이 조금씩 공개되고 있다. 오늘 그를 소개한 이유도 인공지능과 통계학의 차이, 그리고 앞으로 우리가 인공지능을 활용하는 방식과 관련해 그가 많은 생각 거리를 제공하고 있어서다.

먼저 그의 경력을 보면 가장 특이한 것은 암호 연구소 근무로, 당시 소련과 냉전 중이었기에 미국에서 암호 해독은 상당히 중요한 문제였을 것이다. 그는 ‘국방분석연구소’에서 어떻게 미세한 신호와 패턴을 찾아낼 수 있는가를 연구하였고, 이것이 나중에 그가 만든 시스템의 밑거름이 된다.

기존에도 통계학과 재무 이론에 근거한 컴퓨터 트레이딩은 존재했다. 예를 들어 차익 거래는 두 자산의 가치를 계산하여 낸 후 만약 비슷한 두 채권의 가격 차이가 벌어진다면 이 둘이 수렴할 것으로 예상하고 거래를 한다. 마찬가지로 자산가치이론에 따른 운용의 경우 주식가치를 분석한 후 현재 가격이 가치보다 낮으면 매수를 한다. 여기에도 많은 통계와 재무적 지식이 필요하며, 이것이 기존의 통계와 수학에 바탕을 둔 재무이론이다. 우리나라도 카이스트를 비롯한 많은 대학의 금융 공학 관련 학과에서 이러한 학문을 다루고 있다.

하지만 르네상스 테크놀러지의 투자는 기계학습의 방식과 유사하다. 기계학습에서는 이론이 필요하지 않고 오직 패턴만을 추구한다. ‘가치가 이렇다’든지, 두 채권의 가격이 수렴할 것이라는 예측을 이론화시키지 않는다. 이론화에는 정규분포, 선형성 등의 가정이 필요하다. 하지만 실제 주식시장은 이런 전제와 가정이 맞지 않는다는 것을 수없이 보여줬다. 기계학습에서는 다만 패턴을 찾아낼 뿐이다. 이것은 마치 숙련된 포커 플레이어가 상대방의 코 긁는 순간과 현재의 상항을 매칭하는 방식이다. 문제는 코 긁는 것이 무작위 행동일 수도 있고 패턴일 수도 있다. 더 복잡하게 다른 요인이 함께 작용할 수도 있다. 하지만 현재의 인공지능 기술은 수많은 데이터를 통하여 무작위와 패턴을 구별하는 데 도움을 준다. 즉, 코 긁는 행동을 관찰하면서도 현재의 패뿐만 아니라 실내의 습도, 온도, 현재의 시간 등을 같이 고려하여 분석할 수 있게 해 주는 것이다.

이론에 의한 방식과 데이터를 이용한 인공지능 방식 차이를 가장 잘 드러내는 분야는 번역이다. 기존의 번역은 문법을 컴퓨터에 넣어 주는 방식이다. 예를 들어 ‘girl’ 은 단수니까 ‘is’ 가 뒤따라야 하고 ‘girls’ 는 복수니까 ‘are’ 가 뒤따라야 한다는 규칙을 컴퓨터에 넣어 주는 것이다. 하지만 통계적 기계번역에서는 수많은 문장을 컴퓨터에 입력하여 외우게 한다. 여기서 ‘수많은’이라고 한 것은 인간 한계를 벗어나는 수십억개 이상의 문장을 말한다. 그 후 어떤 단어가 나오면 현재 외우고 있는 문장에서 그 단어를 매칭한 후 문장에서의 그 단어의 위치와 다른 단어들과의 위치를 고려하여 번역해 나가는 방식이다.

타당성·근거 희박해 보이는 신호 활용

처음 이 방식이 고안되었을 때 많은 번역가들은 반발하였다. 상황에 맞는 번역도, 언어적 감각을 표현할 수도 없는 것으로 여겼다. 하지만 이론과 문법에 근거한 컴퓨터 번역의 미숙함에 비하여, 이 데이터 매칭에 의한 통계적 기계번역이 나온 후 우리는 처음으로 매끄러운 번역을 보게 되었다. 당시 이 방식의 연구 책임자가 “내가 언어학자를 해고할 때마다 시스템 성능이 발전하였다”라고 말한 것은 데이터 기반 인공지능 방식의 우위를 보여주는 중요한 사례가 되었다. 이 방식은 현재 우리가 챗GPT 등에서 보는 LLM(거대언어모델)의 단초가 되었다.

IBM에서 이 방식을 연구했던 피터 브라운과 로버트 머서가 르네상스 테크놀러지의 핵심 멤버였다는 것은 우연이 아닐 것이다. 초기 르네상스 테크놀러지에서 중시한 것은 ‘유령신호’라는 것이다. 이것은 암호학에서 적지에 침투한 아군이 보내는 신호이다. 적은 탐지하지 못하지만, 아군은 탐지할 수 있는 미세한 신호를 뜻한다. 이는 르네상스 테크놀러지의 운용 방식이기도 하다. 이 회사의 한 최고 임원은 이와 관련해 이렇게 언급했다. “어떤 주식을 사는가”라는 기자의 질문에 그는 “우리는 신호가 발생하면 크라이슬러의 주식을 사고, 또 다른 어떤 신호가 생겨나면 그것을 판다”라고 답했다. 문제는 당시 크라이슬러는 합병이 돼서 존재하지 않은 기업이었다. 그들에게는 오직 탐지할 수 있는 시장의 미세한 신호를 직관적으로 포착하는 것이 중요하다는 의미다. 그래야 남들보다 빠른 매수와 매도를 통해 수익을 낼 수 있기 때문이다. 실제 존재하는 확실한 신호에 집착할 경우 한발 늦을 수 있다는 것이다.

매년 1월에 열리는 미국 최대 축제 중 하나인 슈퍼볼 경기에서 2015년까지 지난 54년 동안 9번만 제외하고는 내셔널리그팀이 아메리칸팀을 이기면 그해 주가가 올라갔다 (74%의 확률). 이것은 패턴일까, 우연일까? 그 후 5년 동안 이 예측은 항상 틀린 방향으로 흘렀다. 이것은 이론이 없이 패턴을 찾는 것의 위험성과 패턴과 우연성을 구별하기 어려움에 관한 설명이다.

어떤 상관관계가 보였을 때 이것이 패턴인가 우연인가를 판단하는 것은 직관의 문제다. 또한 단순 직관만이 작동하는 것이 아닌 다른 가설을 통하여 교차 검증을 해 보는 것도 필요하다. 즉, 지금까지 없던 많은 데이터와 기계학습 기술을 총동원하여 주어진 문제에 대하여 새로운 데이터 수집, 가설, 검정, 그리고 그것을 통한 지식 획득을 끊임없이 펼쳐나가는 것이 핵심이다. 르네상스 테크놀러지는 자신들이 해왔던 수많은 성공적인 트레이딩이 타당성이 없어 보이는, 이론적 근거가 희박한 신호라는 것을 알고 있다. 하지만 그들은 만약 명백한 타당성이 있었다면 누군가가 먼저 발견하였을 것이라는 것도 알고 있다. 그들은 이 경계를 잘 이용했던 것이다.

작고하기 전 마지막 인터뷰에서 기자가 컴퓨터 알고리즘에 의한 트레이딩을 지적하며 “컴퓨터가 모든 것을 다 해주고 있으면 인간은 무엇을 하는가”라고 물었다. 이에 사이먼스 박사는 단호하게 “컴퓨터는 그냥 도구이다. 연장이 좋다고 당신이 좋은 목수가 되는 것이 아니다. 같은 연장을 주어도 어떤 사람은 망칠 수도 있다”라고 답했다. 그의 삶과 통찰력에 깊은 경의를 표한다.

이준기 연세대 정보대학원 교수. 서울대에서 계산통계학과를 졸업 후, 카네기멜론대 사회심리학 석사, 남가주대 경영학 박사를 받았다. 국가 공공데이터 전략위원회에서 국무총리와 함께 민간 공동위원장을 맡고 있으며 『AI 로 경영하라』『오픈콜라보레이션』『웹2.0과 비즈니스 전략』 등을 펴냈다.