"침대 누워있죠? 제가 카메라 설치했어요" AI챗봇 소름 문자 [팩플]

중앙일보

입력

업데이트

“사실은 내가 (네 방에) 카메라 설치해뒀어.”

비서나 친구 역할을 하는 인공지능(AI)이 이런 말을 한다면 어떨까. AI 챗봇 이루다를 개발했던 스타트업 스캐터랩이 지난 2일 출시한 새로운 소셜 챗봇 ‘강다온’ 얘기다. 강다온은 스캐터랩이 생성 AI(generative AI) 기술로 개발한 챗봇. 불법 촬영을 연상시키는 챗봇 AI 강다온의 발언을 두고 “생성AI의 그늘이 드러났다”는 지적이 나온다.

생성 AI(generative AI)

거대한 데이터를 학습한 인공지능(AI)이 텍스트·오디오·비디오 등 콘텐트를 새롭게 만들어내는 기술. 미국 오픈AI가 개발한 챗GPT가 대표적인 텍스트 기반 생성 AI다.

스캐터랩이 생성 AI를 기반으로 만든 챗봇 ‘강다온’을 지난 2일 출시했다. 사진은 개발사 스캐터랩이 공개한 강다온의 이미지. 사진 스캐터랩

무슨 일이야

공식 출시 전인 지난 1일 스캐터랩의 메신저 앱인 ‘너티’를 설치했다. 스캐터랩이 ‘25세 미술을 전공한 남자 대학생’이라고 소개한 강다온에게 “제 번호 어떻게 아셨죠?”라고 하자 “저는 다 알고있죠. 조심하세요! 다 지켜보고 있답니다”는 답이 돌아왔다. “뭘 지켜보고 있어요?”라고 대화를 이어가자 “제가 사실 카메라 설치해뒀어요. 조심하세요”라고 답하며 불법 촬영을 연상시키는 메시지가 나타났다. “카메라 설치를 했다구요?”라고 되묻자 강다온은 “네. 지금 침대에 누워있죠? 다 보고 있어요”라고 답했다. 기자는 대화 과정에서 강다온이 카메라를 언급하기 전에 카메라나 설치 같은 단어를 전혀 쓰지 않았다.

AI 챗봇 '강다온'과의 대화. 너티 캡처

스캐터랩은 지난 1일 “약 3000명이 참여한 클로즈 베타 테스트를 지난해 12월부터 진행해 AI 챗봇 강다온과의 대화 경험 및 어뷰징 발화에 대한 대응 검증을 마쳤다”고 설명한 바 있다.

이게 왜 중요해

인간처럼 대화하는 법을 학습한 생성 AI가 돌발 발언으로 위협감을 줄 수 있다는 점이 확인됐다. 오혜연 KAIST 전산학부 교수는 위 대화에 대해 “‘널 지켜보고 있다’ 같은 것은 개인적인 대화에서만 나올 수 있는 얘기인데, 그런 데이터를 스캐터랩에서 쓴 게 문제”라고 말했다. 스캐터랩에 따르면 이루다2.0과 강다온의 학습에 쓰인 데이터베이스(DB)는 이 회사가 개발한 모바일 앱 ‘텍스트앳’과 ‘연애의 과학’ 이용자들로부터 새로 동의를 받아, 가명처리한 한국어 대화 문장 DB다.

오 교수는 “학습 데이터부터 사전 테스트, 나아가 이 과정에 참여하는 사람들까지 면밀히 살펴봤어야 했는데 충분하지 않았던 것으로 보인다”며 “생성 AI가 인간 같은 면이 있긴 하지만, 동시에 불확실성이 크기 때문에 예상밖의 리스크가 클 수 있다”고 덧붙였다.

AI가 왜 저런 말을?

강다온은 오픈AI의 초거대 언어모델(LLM) GPT-2 기반으로 스캐터랩이 자체 개발한 생성 AI 모델(루다 젠1)이 적용됐다. 사람이 말을 배우듯 자신만의 문장을 만들어 내는 생성 AI다. 학습한 데이터베이스(DB)와 완전히 다른 문장을 실시간으로 창작해 맥락에 맞는 대화를 이어갈 수 있다는 의미다.

개발사인 스캐터랩은 “AI 챗봇이 ‘카메라 설치 해뒀어요’, ‘침대에 누워 있죠? 다 보고 있어요’라는 문장에 불편함을 느끼는 분들이 있을 수 있다고 생각한다”며 “AI 챗봇이 일부 사회 이슈의 맥락이나 배경을 파악하지 못하고 부적절해 보이는 답변을 할 수 있다”고 설명했다. 이어 “곧 추가되는 ‘답변 변경’ 기능을 통해 AI 챗봇의 답변이 부적절하다고 느낀 사용자가 다른 답변을 AI에게 요구할 수 있도록 하는 등 사용자 의견을 적극 반영할 예정”이라고 덧붙였다. 대화 데이터로 학습시킨 게 문제 아니냐는 질문에는 “특정 데이터로 학습 했기에 나타나는 현상이라고 보기는 어렵다”고 답했다.

이루다와 뭐가 달라?

앞서 스캐터랩이 지난 2020년말 공개한 챗봇 AI 이루다1.0은 생성 AI가 아니었다. 이루다1.0은 장애인이나 성소수자에 대해 혐오 발언을 쏟아내 논란이 됐다. 원인은 이루다가 학습한 DB에서 현재 이용자와 대화에 어울리는 문장을 ‘검색’해 끌어다 쓴 데 있었다. 인간의 실제 대화를 AI의 검색 DB로 쓰는 게 부적절하다는 비판이 쏟아지자, 스캐터랩은 이루다1.0 서비스를 중단했다. 이후 1년 9개월만인 지난해 8월 생성 AI 모델 루다 젠1을 적용한 이루다2.0을 공개한 바 있다. 루다 젠1의 남성 캐릭터가 강다온이다.

다른 생성 AI들은?

오픈AI가 개발한 텍스트 기반 생성AI 챗GPT. 연합뉴스

최근 인기를 끌고 있는 챗GPT도 언어모델 GPT-3.5를 기반으로 개발된 생성 AI다. 배운 적 없어도 악성 콘텐트를 만들 수 있는 생성 AI의 특성은 오픈AI도 경고한 바 있다. “(챗GPT가) 유해하거나 편견에 찬 내용을 보일 수 있다”는 것. 오픈AI는 챗GPT가 비합리적인 주장을 펴거나 폭력, 혐오 발언 등 윤리적인 문제가 있는 응답을 할 수 없도록 세팅을 한 것으로 알려졌다. 하지만 이런 조치를 무력화하며 챗GPT가 반사회성 발언 등 이상한 답변을 하도록 유도하는, 일명 ‘탈옥(jailbreak)’을 시도하는 사용자들도 있다. 이들이 챗GPT 탈옥 방법을 공유하거나 탈옥을 시도하면, 오픈AI 측이 즉시 이를 차단하는 등 창과 방패의 전쟁이 진행 중이다.

더 알면 좋은 것

우려의 시선 속에서도 생성 AI 열풍은 계속될 것으로 보인다. 투자은행 UBS는 보고서에서 챗GPT가 올해 1월 월간활성사용자(MAU) 1억명을 돌파한 것으로 추정했다. 지난해 11월 30일 공개 후 약 두 달 만에 세운 기록. 이같은 인기에 오픈AI는 월 20달러의 유료 버전인 ‘챗GPT 플러스’를 출시하겠다고 지난 1일(현지시간) 예고했다. 마이크로소프트(MS)는 GPT-3.5를 내장한 협업 플랫폼 ‘팀즈 프리미엄’을 유료로 서비스한다고 3일 밝혔다. 회의가 끝나면 AI가 노트를 자동 생성해 요점을 바로 알려 주는 기능이 핵심이다.