‘시 쓰고 그림 그리고…’한국도 초거대 AI 개발 ‘불’ 붙었다

중앙일보

입력

업데이트

[최준호의 첨단의 끝을 찾아서] 초거대 인공지능(AI)

배경훈 LG AI연구원장이 지난 13일 서울 마곡 LG사이언스파크에서 초거대 AI에 대해 설명하고 있다. 우상조 기자

이젠 이미 미래다. 인공지능(AI)에 ‘초거대’라는 말이 붙는 시대가 왔다. 네이버가 지난해 5월 ‘하이퍼 클로바’라는 이름의 한글 중심 초거대 AI를 공개한 데 이어, 같은 달 LG AI연구원도 조 단위 인공신경망을 갖춘 ‘초거대 AI’ 투자 및 개발 계획을 발표했다. 2020년 6월 미국 오픈AI가 초거대 AI ‘GPT-3’를 공개하면서 전 세계적으로 불기 시작한 차세대 인공지능 바람이다. GPT-3는 인간처럼 자연스러운 대화를 할 수 있고, 에세이나 소설도 창작할 수 있는 능력을 보여 전세계 사람들을 놀라게 했다. 1년의 세월이 또 지났다. 초거대 AI는 얼마나 성장했을까. 하루종일 폭우가 쏟아지던 지난 13일, 서울 마곡 LG사이언스파크에 있는 LG AI연구원을 찾아 초거대 AI의 실체를 탐구했다. 올해 46세의 컴퓨터공학자 배경훈 원장(전무)이 기자를 맞았다.

반자율주행ㆍ통번역ㆍAI스피커ㆍ딥페이크ㆍ회의록 작성…. 최근 인류의 삶 속에 AI가 많이 들어온 거 같다

10년 전만 하더라도 우리 삶 속에서 AI를 통한 효과를 만들어 내기가 쉽지 않았다. 하지만 2010년 전후로 딥러닝(deep learning) 기술이 본격적으로 대두되면서 여러 분야에서 돌파구를 찾아내고 있다. 2018년 이후로 실제 산업현장과 일상 생활 속에서 AI가 적용되기 시작했고, 2020년부터는 사업적인 효과가 증명되고 있다.

최근 나온 신차들은 인공지능을 활용한 반자율주행 기능이 대부분 탑재돼 있다. [사진 BMW그룹코리아]

초거대 AI란 뭔가.

파라미터, 즉 매개변수 개수가 엄청나게 많은 인공지능을 말한다. 파라미터는 인간 뇌에서 뉴런을 연결해 정보를 학습하고 기억하는 역할을 담당하는 시냅스와 유사한 역할을 한다. 파라미터 규모가 커질수록 AI 지능이 높아진다.

세계 주요국 기업들이 초거대 AI 개발에 뛰어드는 이유가 뭘까.

초거대 AI는 범용 AI(AGIㆍArtificial General Intelligence)를 만들기 위한 과정이라 생각한다. 인간처럼 사고하고 말하며, 인간보다 더 많은 지식을 가진 AI를 만들 수 있다면, 기업은 더 많은 고객 접점 기회를 창출해서 이윤 창출뿐만 아니라, 미래 기업 생존에 있어서도 우위를 차지할 수 있다. 기존 AI가 한 가지 일만 잘 할 수 있다면, 지금의 초거대 AI는 1000개의 임무도 동시에 수행할 수 있어서 생산성 측면에서도 확실히 유리한 점이 있다.

LG의 초거대 AI는 어떤 인공지능인가.

LG의 초거대 AI, 엑사원은 6000억 규모의 말뭉치와 2억5000만 장의 이미지-텍스트 쌍 데이터를 최대 3000억 파라미터 규모로 학습했다. 언어와 시각정보를 함께 다룰 수 있고, 한국어와 영어 두 가지 언어를 이해하는 세계적 수준의 역량을 갖춘 초거대 AI다. ‘엑사원(EXAONE)’이란 이름은 ‘모두를 위한 전문가 AI(Expert AI for Everyone)’라는 뜻이다. LG는 궁극적으로는 범용 인공지능(Artificial General Intelligence)을 만드는 것을 목표로 하고 있다. 범용 인공지능이란 특정한 과제에만 대응하는 것이 아니라 인간과 같이 다양한 과제를 처리할 수 있는 인공지능을 말한다.

LG의 초거대 AI, 엑사원은 6000억 규모의 말뭉치와 2억5000만 장의 이미지-텍스트 쌍 데이터를 최대 3000억 파라미터 규모로 학습했다. 언어와 시각정보를 함께 다룰 수 있고, 한국어와 영어 두 가지 언어를 이해하는 세계적 수준의 역량을 갖춘 초거대 AI다. 우상조 기자

백문(百聞)이 불여일견(不如一見)’이다. 배 원장이 엑사원의 성능을 직접 보여줬다. 우선 AI 화가. 컴퓨터 지시창에 ‘고흐풍의 그림’이라고 적어넣었다. 5분여가 지났을까. 고흐 특유의 꿈틀거리는 붓터치와 색감을 가진 그림 사진 수십 장이 모니터에 펼쳐졌다. 고흐가 그린 듯한 그림이긴 하지만 진짜 고흐의 그림을 모사한 건 하나도 없었다. 기자가 이달 초 쓴 필즈상 수상자 허준이 교수의 기사 본문을 띄워놓고 ‘제목을 뽑아내라’고 하니 순식간에 기사의 핵심이 되는 제목이 여섯 가지 이상 쏟아졌다. 엑사원은 찰라의 시간에 긴 문장을 읽고 이해한 뒤, 마치 유능한 편집기자가 뽑아낸 듯한 제목을 낸 것이다. 엑사원은 어설프지만 시도 썼다.‘새싹이 돋아나는 봄 풍경’이라고 시제를 넣으니 1초도 걸리지 않고 시를 써낸다.‘새싹이 돋아나는 봄날. 들국화의 향긋한 향내도 짙어지고, 아기 소나무 껍질 뽀얀 연록빛 되네. 지난 겨울의 매서운 추위 겪은 모정의 세월만큼 남모르는 정성으로 자랐구나.’ 개발 단계에 있는 초거대 AI라지만 충분히 경악스러웠다.

LG가 초거대 AI를 하는 이유는.

LG 그룹 같이 다양한 사업군을 가지고 있는 회사에서 빠르게 AI를 확산ㆍ적용하기 위해서 초거대AI가 필수적이라 판단했다. 이외에도 새로운 사업분야를 탐색하고 확장하기 위해서도 초거대 AI를 활용하고 있다.

LG 초거대 AI 엑사원이 그린 고흐 풍 그림.

신약 후보물질 개발, 배터리 수명예측, 특허문헌분석에 인공지능을 도입하고 있다고 들었다. 어떻게 하는 건가.

암을 치료할 수 있는 물질인 T세포를 찾아내는 것은 수백만 분의 일의 경우의 수다. 기존 인간의 경험으로 효과적인 T세포를 찾는데 수 년의 시간이 필요하다. 엑사원은 단백질 결합 데이터를 학습해 최적의 T세포, 즉 암을 치료할 수 있는 후보물질을 예측하는 모델을 만들었다. 배터리의 경우 기존에는 출시를 앞두고 100% 충전과 방전 작업을 여러 번 반복하는 방법으로 수명과 용량을 예측한다. 이렇게 하면 엄청난 전기가 든다. 반면 인공지능은 배터리의 전하와 전류의 흐름을 분석해 예측 모델을 만들어낸다. 특허문헌 분석의 경우, 기존에 새로운 소재개발을 위해 관련 논문과 특허 같은 문헌들을 사람이 일일이 읽고 분석하느라 엄청난 시간이 들었다. AI는 이를 순식간에 해낼 수 있다.

LG의 초거대 AI는 언제 완성되나.

초거대 AI는 단기간에 완성되는 것이 아니라 계속해서 발전한다. 완전한 초거대 AI에 대한 뚜렷한 목표는 없지만, 대신 시기별 달성 과제가 있다. 엑사원 1차 버전은 이미 완성해 계열사의 AI 고객상담센터에 활용하고 있다. 현재 화학AI 전문가 개발에도 적용중이며, 제품 디자인 시안 생성에도 엑사원을 적용하고 있습니다. 연말까지 기존 오픈AI의 GPT-3, 달리(Dall-e2) 수준을 뛰어넘기 위해 최신의 AI 기술을 추가로 적용하고 성능을 고도화하고 있다. 내년에는 모든 전문 영역에서 전문가 수준의 대화가 가능한 수준으로 연구개발을 지속 추진할 계획이다.

LG가 지난 2월 미국 뉴욕에서 열린 ‘뉴욕 패션 위크’에서 세계 첫 초거대 AI 기반 아 티스트 ‘틸다(Tilda)’를 공개했다. ‘틸다’는 LG AI연구원의 초거대 AI ‘EXAONE(엑사원)’으로 구현한 첫 번째 AI 휴먼으로 지 금까지 나온 가상 인간들과 달리 스스로 학습해 사고하고 판단하며, 기존에 없는 새로운 창작물을 만들고 인간과 자연스럽게 소통할 수 있다고 LG측은 설명했다. 우상조 기자

기술적인 어려움이 있다면.

이제는 컴퓨팅 인프라와 딥러닝으로 대표되는 AI 기술의 발전은 많이 진행됐다고 생각한다. 하지만 정작 AI가 학습할 수 있는 데이터를 모으는 작업이 쉽지 않다. 아직도 데이터 작업을 할 때 사람의 손이 많이 필요한 부분이 많다. 특히, 언어와 시각 인공지능 기능을 같이 쓰려면 이미지와 텍스트가 쌍으로 결합돼 정제된 데이터가 많이 필요하다.

초거대 AI의 원조인 미국 오픈AI의 GPT-3에 대한 평가를 하자면.

GPT-3는 AI의 가능성을 한 단계 진화시킨 중요한 모델이다. 특히 거대한 파라미터 수를 가진 모델에 대용량의 데이터를 사전에 학습시키면 약간의 추가 훈련이나 몇 개 사례를 보여주는 것만으로도 다양한 업무에서 뛰어난 성능을 낼 수 있음을 보여준 점이 높이 살만 하다. 하지만 1750억 개 규모의 파라미터로 대용량의 데이터를 학습하다 보니, 초반에는 GPT-3가 편견이나 차별이 담긴 발언을 내놓기도 해 논란을 불러오기도 했다. AI는 데이터에 따라 편향성ㆍ공정성ㆍ신뢰성 등 윤리적 이슈를 만들어 낼 수 있다.

미국 등 서구 선진국의 인공지능은 앞으로 어떻게 더 발달할 것으로 전망하나.

구글ㆍ오픈AIㆍ딥마인드 등이 범용 인공지능을 만들기 위해 점점 더 큰 AI모델을 발표하고 있다. 이런 추세는 당분간 지속 될 것으로 보인다. 또한, 인간이 새로운 분야를 학습해도 과거의 기억이 없어지지 않는 것처럼, 초거대 AI도 과거에 학습된 모델에서 새로운 데이터가 들어와도 지속적인 학습이 가능하도록 한 ‘연속학습’ 분야가 중요한 연구 주제로 부상할 것이다. 그리고 다양한 텍스트와 이미지ㆍ소리ㆍ동영상 등을 이해하고 이를 복합적으로 판단하는 AI에 대한 연구가 활발하게 진행될 것이다.

스탠리 큐브릭 감독과 SF소설가 아서 C. 클라크가 함께한 SF영화 '2001 스페이스 오딧세이'(1968)에 나오는 인공지능 컴퓨터 HAL 9000. 사람처럼 묻는 말에 답하고 정보를 찾아준다. [유튜브 화면캡처]

과학소설(SF) 영화의 고전 ‘스페이스 오디세이’의 할(HAL) 9000과 같은 인공지능이 실제로 가능할까.

스페이스 오디세이에서 인공지능 HAL 9000은 자의식을 갖고 자신을 정지시키려 하는 인간을 살해한다. 현재의 인공지능은 데이터 기반으로 현황을 이해하고 판단할 수밖에 없다. 인간 뇌 수준 규모의 초거대 AI를 만든다고 해도, 주어진 빅데이터 안에서 추론하고 판단을 하는 것이다. AI가 스스로 데이터를 모으고 학습하는 자가학습 능력을 갖게 된다고 해도 결국 이것은 시스템적으로 운영되는 것이다. 그저 사람의 뇌구조와 사고를 모방하는 것일 뿐 인간처럼 자의식을 갖긴 어렵다. 결국 스페이스 오디세이에서 HAL9000이 인간을 살해하기 위해서는, 그런 의도를 가지고 있는 인간이 AI가 어떤 행동 패턴에 대해서는 인간에게 해를 가할 수 있는 반응을 하도록 규칙을 정해 줘야 한다.

그럼에도 구글의 AI 람다가 ‘죽음이 두렵다’고 답해 화제가 되기도 했다.

람다가 인간처럼 지각 능력이 있다는 것은 사실이 아니다. 죽음이 두렵다고 말한 것은 람다가 학습한 수백만 건의 대화 데이터 중에서 유사한 대화 문장들을 이해하고 확률적으로 높은 문장을 생성해낸 것이다. 람다의 대답은 결국 학습한 데이터에 따른 영향을 받은 것이며, 인간 사고를 흉내 내는 수준이라고 봐야 한다. 인공지능이 지각 능력까지 갖기 위해서는 스스로 기억할 수 있는 장치들이 있어야 하는데, 현재 인공지능은 새로운 데이터가 들어오면 과거 기억들을 온전히 유지하고 할 수가 없다. 이를 해결하기 위한 연구도 아직 한참 진행 중이다.

레이 커즈와일의 저서『특이점이 온다』를 보면 AI가 조만간 사람의 능력을 넘어선다고도 전망한다.

커즈와일은 인공지능이 인간의 능력을 뛰어 넘는 특이점을 2045년 정도로 예측한 바 있다. 그러나 실제로 인공지능이 인간의 능력을 뛰어넘기 위해선 아직도 해결해야 할 부분이 많이 있다. AI는 구조상 인간의 의지에 따라 작동하게 되어 있고, 특히 데이터 기반으로 추론하고 판단하기 때문에 인간이 가지고 있는 즉각적인 인지 능력이나 자가학습 역량 대비 AI는 자가학습 장치가 없고 인간이 설계한 구조 내에서 작동할 수밖에 없다. 지금의 기술 방향으로는 특이점이 오기는 쉽지 않은 상황이다. 현재의 딥러닝이 아니라 새로운 이론이 등장해야 그 가능성을 제대로 점쳐 볼 수 있을 것 같다. 지금은 초거대 AI의 발전도 결국 지향하는 바는 범용 인공지능이기는 하나, 이 역시 인간이 통제할 수 있는 수준이다.

최준호 과학ㆍ미래 전문기자, 논설위원 joonho@joongang.co.kr