ADVERTISEMENT

“AI가 그림 이해할까요?” LG가 던진 질문에 전 세계가 시선집중

중앙일보

입력

업데이트

LG AI 아티스트 '틸다'. 사진 LG

LG AI 아티스트 '틸다'. 사진 LG

LG 인공지능(AI)연구원이 진행하는 ‘LG 글로벌 AI 챌린지’에 전 세계 AI 연구자들의 관심이 뜨겁다. 6일 LG에 따르면 이날까지 신청 페이지 접속자 수가 2000명을 넘었다. 보통 글로벌 AI 대회 최종 참가자 수가 100팀 안팎인 점을 고려하면 폭발적인 반응인 셈이다.

이번에 LG AI연구원이 주최하는 ‘AI 챌린지’는 AI가 처음 본 이미지를 얼마나 정확하게 이해하고, 설명(‘생성(generative) AI’)하는지 평가하는 대회다. 기존에 학습한 데이터를 바탕으로 사람처럼 ‘창의력’을 발휘할 수 있는 게 특징이다. 최근 전 세계적으로 주목받고 있는 대화형 AI인 ‘AI 챗GPT’ 대표적이다. LG는 여기에서 한발 더 나아가 AI가 사람처럼 이미지를 이해하고 해석할 수 있도록 능력을 한 단계 끌어올리는데 도전하고 있다.

이번 챌린지 주제는 ‘제로샷 이미지 캡셔닝’이다. 제시되는 다양한 이미지를 기존 학습 데이터 기반으로 이해하고 유추해 그 결과를 텍스트로 설명하는 기술이다. 사람의 시각 인지 능력처럼 처음 본 사물이나 동물·풍경 등이 포함된 이미지나 사진·그림·일러스트레이션 등 표현 방식이 다른 이미지를 분석할 수 있다.

LG 초거대 멀티모달 AI ‘엑사원(EXAONE)’이 한번도 학습한 적 없는 이미지를 바탕으로 기존 SOTA모델보다 10배 빠른 캡셔닝 능력을 발휘한다. 엑사원은 이 그림을 보고 “모바일뱅킹에서 서비스 가능한 통화(currencies)를 3차원(3D) 개념으로 표현했다”는 설명을 내놨다. 사진 LG

LG 초거대 멀티모달 AI ‘엑사원(EXAONE)’이 한번도 학습한 적 없는 이미지를 바탕으로 기존 SOTA모델보다 10배 빠른 캡셔닝 능력을 발휘한다. 엑사원은 이 그림을 보고 “모바일뱅킹에서 서비스 가능한 통화(currencies)를 3차원(3D) 개념으로 표현했다”는 설명을 내놨다. 사진 LG

LG AI연구원이 자체 개발한 초거대 멀티모달 AI ‘엑사원(EXAONE)’은 한 번도 학습한 적 없는 이미지를 분석해, 텍스트로 설명한다. 이른바 ‘카피라이터’ 역할을 하게 하는 것이다. 실제로 ‘휴대폰’ ‘신용카드’ ‘유로화’ 등이 놓인 이미지를 본 엑사원은 “모바일뱅킹에서 서비스 가능한 통화(currencies)를 3차원(3D) 개념으로 표현했다”는 설명을 내놨다. 지금까지 세계 최고로 평가받는 SOTA(State-of-the-art) 모델보다 캡셔닝 생성 속도가 10배 이상 빠른 것도 특징이다. LG 측은 엑사원이 기술개발 생태계에 크게 기여할 것으로 기대하고 있다.

한편 LG AI연구원은 올 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 최고 권위 학회인 ‘CVPR(Computer Vision and Pattern Recognition) 2023’에서 ‘제로샷 이미지 캡셔닝 평가의 새로운 개척자들’이란 주제로 워크숍도 연다. 여기에선 구글·마이크로소프트 등의 AI 연구자와 글로벌 석학이 참여해 해당 분야 연구의 방향성·확장성, AI 윤리 등에 대해 심도 있는 논의를 진행한다. 또 ‘LG 글로벌 AI 챌린지’ 최종 수상팀의 성과도 발표할 예정이다.

ADVERTISEMENT
ADVERTISEMENT