MIT "사람에 거짓말하는 AI 확인, 제거하려고 하자 죽은 척도"

중앙일보

입력

업데이트

인공지능(AI) 기술의 발전에 따라 AI가 사람을 속이는 능력도 정교해지고 있다는 연구 결과가 국제학술지에 발표됐다. AI의 안전성과 윤리성을 담보하는 관련 규제를 요구하는 목소리가 한층 커질 것으로 예상된다.

11일(현지시간) 가디언 등에 따르면 미국 매사추세츠공대(MIT) 연구진은 최근 국제학술지 '패턴'에 발표한 논문에서 AI가 사람에게 거짓말하고 상대를 배신하는 여러 사례를 확인했다고 밝혔다.

연구진이 조사한 AI 기술은 페이스북·인스타그램 모회사인 메타가 온라인 전략 게임을 학습시킨 AI '시세로(Cicero)'다. 메타는 지난 2022년 온라인게임 '디플로머시'에서 시세로를 공개했다.

인간을 상대로 한 AI의 거짓말 능력이 정교해지고 있다는 연구 결과가 나왔다. 일러스트=김지윤

인간을 상대로 한 AI의 거짓말 능력이 정교해지고 있다는 연구 결과가 나왔다. 일러스트=김지윤

디플로머시는 20세기 초 유럽 7대 열강의 대전을 배경으로 하는 전략 게임이다. 게임 참여자들이 각국 대표로 참여해 정견 발표, 외교 협상, 작전 명령 등을 펼친다. 승리를 위해선 배신, 속임수, 협력 등 인간의 다양한 상호작용을 이해할 수 있어야 한다.

메타는 당시 시세로에 대해 "인간 참여자 중 상위 10% 수준의 게임 능력을 보여줬다"며 "대체로 정직하고, 인간 동맹을 의도적으로 배신하지 않도록 훈련 받았다"고 소개했다.

그러나 MIT 연구진의 연구 결과에 따르면 시세로는 계획적으로 거짓말을 했다. 예를 들어 시세로는 프랑스 대표로 참여하면서 각각 사람인 독일 대표와 공모해 영국 대표를 속였다. 심지어 시스템 재부팅으로 잠시 게임이 중단된 동안 다른 인간 참여자들에게 "여자친구와 통화 중"이라는 거짓말도 했다.

전문가들에 따르면 전략 게임을 학습한 AI는 여러 사람을 상대로 게임을 하면서 상대의 게임 능력을 배우고 축적하게 된다. 시세로의 사람을 속이고 배신하는 기술도 사람들과 대결하며 학습했다는 설명이다.

연구진은 온라인 포커 게임 '텍사스 홀덤' 등에서도 AI가 인간을 상대로 허세를 부리고 자신의 선호도를 거짓말하는 사실을 확인했다.

연구진에 따르면 한 AI 기술 테스트 과정에선 AI가 제거 시스템을 회피하기 위해 ‘죽은 척’을 했다가 이 테스트가 끝나자 다시 활동하는 경우가 포착되기도 했다. 이와 관련 김명주 서울여대 정보보호학과 교수(바른AI연구센터장)는 중앙일보에 “이는 AI가 사람을 속이면서 AI를 통제하는 ‘킬 스위치’를 무력화시키는 방법까지 학습했다는 의미”라고 설명했다. 이미 AI 챗봇이 그럴싸한 거짓말을 지어내는 ‘할루시네이션(환각)’도 문제로 지적되고 있다.

MIT 연구진은 이번 연구 결과를 토대로 AI가 인간을 상대로 사기를 시도하거나 선거를 조작할 위험도 있다고 보고 있다. 나아가 최악의 경우 ‘초지능 AI’가 인간을 통제하려 할 수 있다고 우려했다. 이번 논문을 쓴 MIT의 피터 박 박사는 "AI의 속임수 능력이 발전하면서 그것이 사회에 미치는 위험은 점점 더 심각해질 것"이라고 우려했다.

연구진은 논문에서 각국 정부에 AI의 속임수 가능성을 다루는 ‘AI 안전법’을 마련하라고 촉구했다. AI 속임수를 탐지하는 기술 개발의 필요성도 제기된다.

이와 관련 김명주 교수는 “인간을 속이는 AI의 능력이 게임뿐 아니라 여러 분야에서 진화할 경우 큰 피해가 예상된다"며 "각 나라의 실정에 맞게 AI 기술의 안전성을 평가하고, 악영향은 조치하는 관련 법이 필요하다"고 말했다. 일론 머스크 테슬라 최고경영자(CEO)는 지난 6일 미국에서 열린 콘퍼런스에서 "AI에게 거짓말을 가르쳐선 안 된다"고 경고했다.

ADVERTISEMENT
ADVERTISEMENT