트랜D

[트랜D] 인공지능은 수능 만점자가 될 수 있을까

중앙일보

입력 2020.12.10 10:19

업데이트 2021.03.26 09:01

트랜D

트랜D’ 외 더 많은 상품도 함께 구독해보세요.

도 함께 구독하시겠어요?

'유재연의 인사이드 트랜D'

얼마 전 수능이 끝났다. 긴 지문과 촉박한 시간, 난해한 문항과 극심한 긴장감 모두 수험생을 힘겹게 했다. 체력도 마음도 없는 인공지능(AI)이라면 수능을 더 잘 볼 수 있지 않을까. 인공지능 기술이 개발된 이래, 인공지능에 시험을 치르게 하는 시도는 줄곧 있어 왔다.

제퍼디부터 엑소브레인까지, 퀴즈는 제패됐다

빠른 속도로 언어로 된 질문을 분석하고, 답을 찾아 제시하는 AI의 능력은 2011년에 증명된 바 있다. 그 역사적인 순간은 왓슨(IBM)의 제퍼디(Jeopardy!) 우승 사건이라고도 불린다. 그로부터 5년 뒤인 2016년에는 한국전자통신연구원(ETRI)의 엑소브레인(Exobrain)이 EBS 장학퀴즈에서 ‘장원'을 차지했다. 단순 형태의 답을 제시해야 하는 문항에 대해서는 물론, 사람 상식으로 추론할 수 있지만 기계는 어려워할 법한 문제까지 속속들이 학습한 끝에 이뤄진 알고리즘의 승리였다.

 그림1. 왓슨의 제퍼디 장면.

그림1. 왓슨의 제퍼디 장면.

AI가 문맥을 이해하고 답을 제시할 수 있게 된 분기점은 2018년이다. 구글 연구진의 자연어 처리 모델인 버트(Bidirectional Encoder Representations; BERT) 개발을 기점으로 맥락 이해도가 크게 높아졌다. 이후 버트를 활용한 각종 자연어 처리 방법(한국의 경우 KoBert)이 나와 사실상 대화형 알고리즘의 새로운 시대를 열었다는 평가도 나온다. 버트를 활용하는 시도 중 하나가 바로 토익 문제 풀기다. 이미 학습한 데이터를 기반으로 문장에 맞는 시제와 문법, 맥락상 알맞은 유사어 등을 맞히는 시도가 개발자들 사이에서 줄곧 시도되고 있다.

그림2. 문장의 빈 칸에 알맞은 답을 맞히는 버트 모델.

그림2. 문장의 빈 칸에 알맞은 답을 맞히는 버트 모델.

다른 축에서는 오픈AI(openAI)를 중심으로 GPT(Generation Pre-trained Transformer, 인공 일반 지능 모델) 시리즈가 지속적으로 개발되고 있다. GPT는 기계 학습 기술을 이용해 인공지능이 사람에 가까운 언어를 구사할 수 있도록 한 언어 모델이다. 특히 최근 큰 관심을 끌며 세상에 등장한 GPT-3의 경우 직접 문장을 만들어내는 능력이 돋보인다. 아직 갈 길이 좀 남기는 했지만, 곧 있으면 문제를 푸는 것은 이제 ‘문제도 아닌’ 세상이 올 것이다.

문제를 만드는 것도 가능하다

그렇다면 AI의 시험 출제도 가능하지 않을까. 인공지능이 소설도 쓰고, 칼럼도 작성하는 시대인만큼 문제 만들기도 이론적으로는 가능하다. 기본적으로 ‘문장 내 빈칸 뚫고 보기 항목 제시하기’ 같은 문제 생성 프로그램은 최근 에듀테크 기업을 중심으로 서비스를 진행하고 있다. 더 나아가 문맥을 이해하고, 그로부터 ‘문제를 이해했는지’ 물어보는 부류의 문제집을 ‘만드는’ 서비스도 최근 출시됐다.

대표적인 사례는 미국의 에듀테크 기업 Quillionz. 400자 이상의 영어 지문을 입력하고 주요 키워드를 집어주면, 텍스트를 둘러싼 다양한 퀴즈를 생성해 준다. 5W1H라 불리는 육하원칙 기반의 질문은 기본. 빈칸 채워 넣기나 추론형 문제 같은 것도 가능하다. 다만, 실제로 이러한 문제 생성 프로그램을 개발하는 사람들 사이에서는 ‘보기 항목에 오답 만들기가 너무 어렵다’는 목소리가 나온다. 성능이 좋다 보니, 너무 정답만 만들어 낸다는 것이다.

그림3. 주어진 지문을 기반으로 문제를 생성해내는 프로그램.

그림3. 주어진 지문을 기반으로 문제를 생성해내는 프로그램.

시험의 난이도를 조정하거나, 학생을 평가하는데도 AI 도입

문제를 풀 수도, 만들 수도 있는 인공지능인 만큼 난이도나 학생의 성적 계산은 더 손쉽게 해낼 수 있다. 지난해 국제 바칼로레아기구(International Baccalaureate Organization; IBO)는 고교 성적을 과거 수행 능력과 기타 학습 성과를 데이터로 삼아 학생들에게 점수를 매기는 프로세스를 도입했다. 우리로 치면 ‘학종(학생부 종합전형)’을 기계적으로 분석해서 성적을 산출하는 것. 실제 IBO에는 최대 50년 어치의 학교 및 학생 학습 결과 데이터가 쌓여있다고 한다. 그리고 실제 데모 테스트를 한 결과, 학생들의 기반 정보를 토대로 예상된 성적과 학생이 마지막에 실제로 달성한 성적이 90% 안팎의 예측 정확도를 보였다고 한다.

해당 시스템은 코로나 19를 계기로 일부 현장에 도입됐다. 프랑스의 바칼로레아(대입 시험)를 비롯해 국가 규모의 시험이 취소되면서, 대학들이 학생을 뽑을 기준을 찾지 못했기 때문이다. IBO의 AI 예측 성적 시스템은, 현장 도입과 동시에 엄청난 반발에 휩싸였다. 시험을 보지 않았으니 실제 성적은 알 길이 없지만, 대부분의 예측 성적이 터무니없이 떨어지는 것으로 나왔기 때문이다. 당장 학생들은 IBO의 소셜미디어로 달려가 항의를 쏟아냈다. 학생을 둘러싼 정보(예를 들면 학교 정보)의 부족으로 개인의 등급이 더 낮게 나오는 경우도 발생한다며, IB의 알고리즘이 공정치 않다는 의견도 나왔다. 개인정보 및 인권에 대한 반발 또한 가중됐다. 하버드비즈니스리뷰(HBR)의 에브제니우 등 저자들은 “설명 가능한 AI(explainable AI)와 같이 분석 방법에 투명성을 부여할 수 있는 디자인이 제시되어야 한다”고 주장했다.

언젠가는 수능일 저녁, 각종 학원의 ‘올해 수능 난이도 분석'을 넘어서는, ‘AI의 난이도 분석’ 시스템이 일상이 될지도 모른다. 하지만 유독 춥고 힘겨운, 초유의 코로나 19 수능 상황까지 AI가 어찌 다 반영할 수 있으랴. 수험생의 마음과 컨디션과 사회적 맥락까지 모두 반영하지 않는 한, 그저 객관적으로 “쉬웠다”고 말하는 AI의 말은 영 믿고 싶지 않을 것 같다. 모두가 꾸역꾸역 살아내는 이 시대를, AI는 이해하지 못하기 때문이다.

 유재연 객원기자는 중앙일보와 JTBC 기자로 일했고, 이후 서울대 융합과학기술대학원에서 박사과정을 수료했다. 이미지 빅데이터분석, 로봇저널리즘, 감성 컴퓨팅을 활용한 미디어 분석에 관심이 많다. 현재 서울대 융합과학기술대학원 연구원으로 활동하고 있다. you.jae@snu.ac.kr

관련기사

ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT

Innovation Lab

ADVERTISEMENT