오피니언 노트북을 열며

챗GPT 길들이기

중앙일보

입력

지면보기

종합 28면

박수련 기자 중앙일보 산업부장
박수련 IT산업부 부장

박수련 IT산업부 부장

“좋은 작품이란 작품은 몽땅 읽어둬야 해. 그래야 이제껏 어떤 것들이 쓰였는지 알 수 있으니까. (중략) 어떤 예술에서고 낫게 만들 수 있다면 뭐든 훔쳐도 괜찮아. 단, 언제나 아래가 아니라 위를 지향해야 해. 그리고 남을 흉내 내지 말게. 문체란 말이야, 작가가 어떤 사실을 진술할 때 드러나는 그 사람만의 고유한 어색함이라네.”(『헤밍웨이의 작가수업』, 아널드 새뮤얼슨).

『노인과 바다』를 쓴 어니스트 헤밍웨이는 작가 지망생에게 이렇게 말했다. 약 90년 전 헤밍웨이가 강조한 작문법은 요즘 전 세계를 인공지능(AI) 열풍에 빠뜨린 챗GPT의 학습법과도 비슷해 보인다. 인류가 축적한 지식과 데이터를 몽땅 흡수한 챗GPT는 웬만한 인간 이상의 달변, 아니 필력을 뽐낸다. 각종 ‘대화 후기’를 보면 챗GPT는 시를 쓰고 수필도 쓴다는데, 언젠가 챗GPT만의 ‘고유한 어색함’마저 생길 것 같다.

이미지를 창작하는 생성AI 미드저니에 ‘챗GPT, 데이터’를 주제어로 제시했더니 나온 그림. [미드저니 캡처]

이미지를 창작하는 생성AI 미드저니에 ‘챗GPT, 데이터’를 주제어로 제시했더니 나온 그림. [미드저니 캡처]

미국 기업 오픈AI가 개발한 챗GPT는 텍스트 기반 대화형 AI 언어모델이다. 1750억개의 파라미터(인간 뇌의 시냅스 같은 정보 매개)가 훈련에 쓰였다. 공개 후 40일 이상 지난 최근에도 챗GPT는 동시접속자가 몰려 일시 중지될 만큼 인기다.

문제는 챗GPT에 입력된 학습 데이터다. 챗GPT의 답에 따르면 “인터넷 웹 페이지, 뉴스 기사, 블로그 게시물, 책 등”으로 배웠다고 한다. 오픈AI가 정보의 품질을 어느 정도 따지기는 했겠지만, 드넓은 웹의 바다에서 무결한 데이터만 골라내긴 쉽지 않다. 웹엔 거짓이거나 유해하고 악의적인 글도 많다. 챗GPT가 종종 사실을 거짓과 헷갈리고, 헛소리하는 배경이다. 쓰레기가 들어가면 쓰레기를 배출하는 게 컴퓨터 과학이니까.

앞으로 나올 n개의 GPT 등 AI 언어모델도 문제다. 더 큰 데이터, 더 다양한 쓰레기 속에서 학습할 가능성이 크다. 2021년까지 정보로만 학습한 챗GPT의 한계를 보완했다는 AI 언어모델 ‘유닷컴’이 그 예다. 웹 검색을 연동해 최신성은 확보했지만, 유닷컴도 거짓 정보를 사실인양 천연덕스럽게 답한다.

그럼에도, 챗GPT는 머잖아 일상을 파고들 것 같다. 마이크로소프트가 e메일이나 워드 등에 챗GPT를 적용할 방안을 검토 중이라고 한다. 챗GPT가 장문의 e메일 답장을 나 대신 보내게 할 수도 있단 얘기다. AI가 가벼운 채팅에서 헛소리가 아니라, 개개인의 데이터로 실제 일상에 스며든다면 데이터 관리 및 보안, 법적인 책임 등 여러 숙제가 쏟아질 수 있다. AI를 어떻게 길들일지 슬슬 얘기를 시작할 때다.