[팩플] “시각장애인에 길 안내까지?” 눈 달리고 더 똑똑해진 GPT-4

중앙일보

입력

업데이트

챗GPT보다 더 똑똑한 인공지능(AI)이 나올 것이란 기대 속에 GPT-4가 공개됐다. 지난 3개월간 전 세계에 AI 열풍을 일으킨 오픈AI의 후속작이다. GPT-4는 똑똑할 뿐 아니라, 사진이나 영상 등 이미지를 인식할 수 있는 ‘눈’까지 탑재했다. 초거대 AI 기술 경쟁이 다시 타오르고 있다.

오픈AI 로고. 로이터=연합뉴스

오픈AI는 14일(현지시간) 4세대 초거대 AI인 GPT-4를 출시했다. 챗GPT의 기반이 된 GPT-3.5의 업그레이드 버전이다. 오픈AI 투자자인 마이크로소프트(MS)는 같은 날 즉시 “검색엔진 빙에 GPT-4를 탑재했다”고 발표했다. 오픈AI는 초거대 AI 훈련에 사용된 매개변수(파라미터) 규모는 공개하지 않았다. 보통은 매개변수가 많을 수록 AI의 역량이 뛰어난데, GPT-3의 파라미터 수는 1750억개였다.

오픈AI는 언어학습 앱인 듀오링고, 핀테크 앱인 스트라이프 등 유명 모바일 앱에도 GPT-4가 탑재됐다고 공개하며 ‘GPT 생태계’를 과시했다. 오픈AI는 GPT-4 공개 직후, 앱 개발사들로부터 API 이용 신청을 받기 시작했다. 오픈AI가 지난달 출시한 유료 AI ‘챗GPT 플러스’(월 이용료 20달러)에도 GPT-4를 즉시 적용했다고 밝혔다.

오픈AI가 14일(현지시간) 초거대AI GPT-4를 공개했다. 오픈AI 캡처

GPT-4, 뭐가 더 좋아졌나

그래픽=박경민 기자 minn@joongang.co.kr

①눈이 생겼다: 이전 AI 모델들과 가장 큰 차이는 텍스트뿐만 아니라 이미지까지 이해할 수 있는 멀티모달 모델이라는 점이다. 오픈AI는 파트너사인 ‘비마이아이즈’가 개발 중인 GPT-4 기반 버추얼 자원봉사자를 소개했다. 시각장애인에게 현재 눈앞의 풍경이나 사물의 형체를 음성으로 안내하는 AI 서비스다.

이날 오픈AI가 공개한 ‘GPT-4 기술 리포트’에 따르면 지역별 인당 육류 소비량에 대한 차트 이미지를 입력한 뒤, GPT-4에게 ‘차트에 나온 숫자의 합계를 내달라’고 요구하자, GPT-4가 올바른 결과값을 도출해냈다. 단순히 결과값뿐만 아니라 계산의 과정을 설명하기도 했다.

GPT-4의 특징은 이미지도 이해할 수 있는 멀티모달 모델이라는 점이다. 사진 한 장과 함께 “이 이미지의 특이한 점은 무엇인가”라고 입력하자 GPT-4가 “이 이미지의 특이한 점은 한 남자가 움직이는 택시 지붕에 부착 된 다리미판에서 옷을 다림질하고 있다는 점이다”고 답하고 있다. 오픈AI 제공

② 말은 더 잘한다: 영어 능력은 MMLU(AI 언어 모델의 언어 능력을 보여주는 벤치마크) 기준 70.1%(GPT-3.5)에서 85.5%로 향상됐다. 다소 어색했던 한국어도 나아졌다. GPT-4의 한국어 능력은 MMLU 기준 77.0%로 GPT-3.5의 영어 능력(70.1%)보다 좋아졌다. 모의 변호사 시험을 상위 12%의 점수로 통과하고, 미국 대학입학시험인 SAT에서는 상위 10%의 성적을 냈다.

③ 기억력도 향상: GPT-4는 GPT-3.5보다 기억할 수 있는 대화가 더 많다. GPT-3.5가 한 번에 최대 약 3000단어(영어 기준)까지 처리하는 데 비해 GPT-4는 약 2만5000단어까지 처리할 수 있다. 쉽게 말해 GPT-3.5가 사용자와 대화할 때 책의 4~5페이지 분량을 기억한다면 GPT-4는 50페이지 분량을 기억한다는 것.

④ 헛소리는 덜 한다: AI가 없는 정보를 있는 것처럼 말하는 ‘할루시네이션(환각)’ 문제를 GPT-4에서도 완전히 해결되지는 않았다. 다만, 이전 언어모델보다 개선되긴 했다. 오픈AI가 진행한 사실성 평가에서 GPT-4는 GPT-3.5보다 40% 더 높은 점수를 받았다. 아직도 2021년 9월 이전 정보만 학습돼 있어 최신 정보는 모른다. 오픈AI는 정보 검증(필터링)을 강화하면서 유해한 정보의 생성도 줄였다고 밝혔다.

오픈AI의 GPT-4 사용화면. 없는 정보를 있는 것처럼 이야기하는 '할루시네이션'(환각)은 아직 해소되지 않았다. 김남영 기자

왜 중요해

① 글로벌 AI 경쟁 심화: 오픈AI발 챗GPT 충격 이후 빅테크들의 AI 경쟁 속도가 눈에 띄게 빨라지고 있다. 구글은 초거대 AI인 람다 기반의 대화형 생성AI ‘바드’의 출시를 예고했고, 페이스북 운영사인 메타도 초거대 AI 라마를 연구자들에게 오픈소스로 공개했다.

② 문이 닫힌다?: 오픈AI는 연구개발 논문을 공개했던 GPT-3과 달리 GPT-4는 소개서 성격의 기술 리포트만 냈다. 모델을 훈련시키기 위해 사용한 데이터셋, 아키텍처도 공개하지 않았다. AI 연구자들 사이에서는 ‘구글처럼 AI 기술을 독점하지 않겠다’라는 명분으로 설립된 오픈AI가 MS의 거액 투자 이후 점점 폐쇄적으로 변해간다는 평가가 나오기도 한다. 하정우 네이버클라우드 AI랩 소장은 “지금까지 오픈AI가 많은 것을 공개하면서 함께 성장한다는 방향으로 해왔는데, 이제 오픈AI-MS 진영은 ‘문을 닫겠다’는 선언을 한 것으로 볼 수도 있다”며 “이같은 기조가 GPT 시리즈에 한정될 수도 있고, 모든 연구에 대해서일 수도 있는데 아직은 알 수 없다”고 설명했다.

경쟁자는 뭐해

이날 오픈AI가 GPT-4를 공개하기 직전 구글도 생성 AI 관련 신규 기능을 대거 공개했다. 구글은 클라우드 기반 업무 도구 플랫폼인 구글 워크스페이스의 일부 시범 사용자들에게 생성AI를 활용한 새로운 글쓰기 지원 기능을 제공한다고 밝혔다. 원하는 주제를 입력하면 초안을 제공하는 식이다. 또 구글의 초거대 언어모델 팜(PaLM)의 API를 공개하고, 빠르게 생성 AI앱을 만들 수 있는 앱 빌더를 출시한다고도 밝혔다. 그러나 챗GPT로 글로벌 히트를 친 오픈AI의 신작(GPT-4) 출시 소식에 묻히는 분위기다. 오픈AI에서 나온 개발자들이 만든 앤스로픽도 대화형 생성AI ‘클로드’를 같은 날 출시했다. 앤스로픽도 구글이 4억 달러를 투자한 회사다.

구글이 투자한 AI 스타트업 앤스로픽이 만든 대화형 생성 AI '클로드'. 앤스로픽 캡처

한국은 어때

국내 IT기업들도 초거대 AI 경쟁에서 속도를 늦출 수 없다는 절박함이 강하다. 글로벌 빅테크의 AI 생태계에 강제 포위 당하지 않기 위해서다. 네이버는 오는 7월 하이퍼클로바의 업그레이드 버전인 ‘하이퍼클로바X’를 발표할 예정이다. 검색에 특화된 AI인 네이버 서치GPT도 나올 것으로 보인다. KT는 초거대AI ‘믿음’의 올 상반기 상용화를 목표로 속도를 내고 있다. 카카오도 AI 자회사 카카오브레인을 중심으로 한국어 특화 초거대 AI 모델 ‘코챗GPT’를 상반기 내 출시하겠다는 계획.

AI 스타트업 업스테이지의 박은정 최고과학책임자(CSO)는 “각 기업이 초거대 AI 개발 경쟁에 나서는 이유는 시장을 앞서 진출하려는 공격의 목적도 있지만, 외부에 의존하지 않는 방어 전략으로서의 목적도 크다”며 “그러려면 지속적인 연구개발과 혁신을 통해 기술 경쟁력을 확보해야 한다”고 말했다.