ADVERTISEMENT

[팩플] “이건 AI가 쓴 거네”…'AI 대필' 검증하는 AI 쏟아진다

중앙일보

입력

텍스트 기반 인공지능(AI) 서비스 챗GPT가 각종 입학·자격 시험을 통과하고, 작문 보조도구로 쓰이자 AI가 쓴 글을 판별하는 서비스들이 쏟아지고 있다. AI의 대필 혹은 참여를 검증하는 AI 서비스, 이건 믿어도 될까.

오픈AI가 AI가 쓴 글인지를 판별하는 감별기 '클래시파이어'를 31일(현지시간) 내놓았다. 사진 오픈AI

오픈AI가 AI가 쓴 글인지를 판별하는 감별기 '클래시파이어'를 31일(현지시간) 내놓았다. 사진 오픈AI

오픈AI는 자사가 개발한 챗GPT 등 AI가 참여해 만든 텍스트인지를 판별하는 앱 ‘클래시파이어(Classifier)’를 무료로 공개했다고 31일(현지시간) 발표했다. 검증하려는 텍스트를 이 앱에 복사해 붙여 넣으면 AI가 해당 문서를 작성했을 가능성을 진단해주는 서비스다. ‘AI가 생성한 것 같지 않음’, ‘가능성 없음’, ‘불확실함’, ‘가능성 있음’, ‘AI로 생성한 것 같음’ 등 5단계로 구분한다.

클래시파이는 오픈AI 계정이 있으면 누구나 쓸 수 있다. 오픈AI는 사람과 AI가 같은 주제로 쓴 글을 한 세트로 하는 데이터를 활용해 클래시파이어의 판별 기능을 개발했다고 설명했다. 다만, 최소 1000자 이상 분량이어야 하며 영문 텍스트에만 적용하는 것이 좋다는 제한 사항도 안내했다. 분량이 너무 짧거나 영어 아닌 언어에 대해선 판별 정확도가 떨어진다는 이유다.

실제 오픈AI 클래시파이어의 성능은 높지 않은 편이다. 오픈AI의 자체 테스트에 따르면, 이 판별기는 AI가 쓴 글의 26%에 대해서만 ‘AI가 쓴 글’이라고 밝혀냈다. 인간이 쓴 글을 앱에 입력했더니, 그중 9%를 ‘AI가 쓴 것’이라고 잘못 판단하기도 했다.

전에도 말야

AI 판별기를 만들려는 시도는 꾸준히 있었다. 미국 프린스턴대의 학생인 에드워드 티안은 지난달 4일 글이 AI에 의해 작성됐는지 측정할 수 있는 ‘GPT제로’를 내놓았다. AI 학계의 석학인 미국 스탠퍼드대의 크리스토퍼 매닝 교수와 첼시 핀 교수 연구팀은 지난달 26일 챗GPT가 작성한 문장을 찾아내는 ‘디텍트GPT’를 개발했다고 밝혔다.

AI가 쓴 글을 찾아내는 서비스가 점차 늘어나고 있다. 스타트업 오리지널리티AI는 GPT를 이용해 쓴 글을 탐지하는 서비스를 유료로 제공하고 있다. 사진 오리지널리티AI

AI가 쓴 글을 찾아내는 서비스가 점차 늘어나고 있다. 스타트업 오리지널리티AI는 GPT를 이용해 쓴 글을 탐지하는 서비스를 유료로 제공하고 있다. 사진 오리지널리티AI

미국의 스타트업 오리지널리티AI는 GPT를 이용해 쓴 글을 탐지하는 기능을 유료로 서비스 중이다. 오리지널리티AI에 따르면 챗GPT에 쓰인 GPT-3.5를 비롯해 GPT-3, GPT-2, GPT-네오로 만든 글을 거를 수 있고, 탐지율은 94% 이상이라고 한다.

이게 왜 중요해

인간처럼 사고하고 표현하도록 훈련받은 AI 언어 모델(LLM)의 성능이 빠르게 좋아지면서 학교 과제나 논문 작성에 이를 이용하려는 수요가 급증했다. 이 때문에 교육 현장과 학계의 혼란이 커지는 중. 미국 뉴욕시 교유청은 공립 학교의 챗GPT접속을 차단했다. 국제머신러닝학회(ICML)는 AI 도구를 활용해 논문을 작성하는 것도 제한했다. 이날 판별기를 내놓은 오픈AI도 “그동안 AI 활용한 표절 등 학계가 우려한 문제를 해결하기 위해 (클래시파이어를) 만들었다”고 밝혔다.

미국 스타트업 오픈AI가 개발한 인공지능 대화 서비스 챗GPT(ChatGPT). 연합뉴스=AP

미국 스타트업 오픈AI가 개발한 인공지능 대화 서비스 챗GPT(ChatGPT). 연합뉴스=AP

앞으로는

챗GPT는 지난해 11월말 출시 후 40일 만에 하루 활성 사용자(DAU) 수 1000만명을 돌파할 정도로, 대중의 관심이 뜨겁다. 이를 무조건 막기보단 올바르게 활용할 수 있도록 가이드라인이 필요하단 목소리가 커지고 있다. 과학 학술지 네이처는 “대규모 언어 모델을 (논문에) 사용하는 경우에는 반드시 명시해야 한다”는 가이드라인을 내놓기도 했다.

AI가 창작한 생성물을 찾아내는 AI 기술도 가속화될 전망이다. 스타트업 프렌들리AI의 창업자인 전병곤 서울대 컴퓨터공학부 교수는 “AI가 결과를 잘 도출할 수 있게 하는 연구보다 AI로 만든 결과물을 판별하는 연구는 더 늦게 시작돼 아직 초기 단계”라며 “인간과 비슷한 글을 쓰는 AI와 AI가 쓴 글을 찾는 AI가 경쟁하는 과정에서 기술의 진전이 빨라질 것”이라고 말했다.

더 알면 좋은 것

오픈AI는 판별기 출시와 함께 챗GPT의 업데이트도 알렸다. 오픈AI 측은 “챗GPT가 스스로 생성한 내용의 진위를 판단하는 능력과 수학 연산 역량을 개선했다”고 설명했다.

다만 숫자에 약한 LLM 특성상 업데이트에도 여전히 수학적 능력의 한계가 드러나고 있다. 챗GPT에게 “1000000(100만)은 9999999999(99억9999만999)보다 큰 숫자야?”라고 질문하자 “네, 1000000은 9999999999보다 큰 숫자입니다”고 답했다. 이와 관련해 AI스타트업 업스테이지의 박은정 최고과학책임자는 “언어 모델은 숫자 셈이 아닌 인간의 언어를 모방하는 모델링이라, 연산엔 약할 수 있다”며 “AI가 학습을 잘 하면 보완할 수 있을 것”이라고 말했다.