ADVERTISEMENT

“사람처럼 이해하고 설명한다”...LG가 이미지 분석 AI 키우는 까닭은

중앙일보

입력

LG AI연구원은 2021년 말 초거대 AI인 엑사원을 공개했다. LG AI연구원 홈페이지 캡처

LG AI연구원은 2021년 말 초거대 AI인 엑사원을 공개했다. LG AI연구원 홈페이지 캡처

LG AI(인공지능)연구원이 전 세계 AI 연구자 대상으로 내달 1일~4월 말 온라인으로 ‘LG 글로벌 AI 챌린지’를 개최한다. 최근 대화형 AI인 챗GPT의 등장으로 ‘생성(generative) AI’가 주목받고 있는데, 사람처럼 이미지를 이해하고 해석할 수 있는 능력을 한 단계 끌어올린다는 의미가 있다.

생성 AI는 사람처럼 ‘창의력’을 발휘할 수 있는 AI다. 기존 데이터를 학습해야 하긴 하지만 새로운 것을 만들어낸다는 점에서 사람의 창작 활동을 닮았다. LG AI연구원이 이번에 진행하는 ‘AI 챌린지’는 인공지능이 처음 본 이미지를 얼마나 정확하게 이해하고 설명하는지 평가하는 대회다.

지금까지 생성 AI는 이미지나 영상 분석에서 뛰어난 능력을 발휘했다. 휴대전화 사진첩에 검색어를 넣으면 과거에 찍은 사진을 찾아주거나, ‘딥 페이크’ 기술로 실제 사람 같은 영상을 만들어내는 식이다. 하지만 챗GPT는 인간 언어의 미묘한 뉘앙스나 구조를 이해하고 만들어낸다는 점에서 이들과 차별된다.

이번 챌린지의 주제는 ‘제로샷 이미지 캡셔닝((Zero-Shot Image Captioning)’이다. 이미지를 분석해 분류하는 데 그치지 않고 이를 언어(텍스트)로 설명한다는 점에서 ‘멀티 모달(multi-modal) AI’라고도 불린다. 학습하고 분석하는 대상이 언어·그림·음악 등 다양하다는 점에서 붙은 이름이다.

LG AI연구원의 초거대 AI '엑사원'이 만들어낸 이미지 설명. 사람처럼 사진을 인식하고 분석해 자연스러운 언어로 설명한다. 사진 LG

LG AI연구원의 초거대 AI '엑사원'이 만들어낸 이미지 설명. 사람처럼 사진을 인식하고 분석해 자연스러운 언어로 설명한다. 사진 LG

‘제로샷 이미지 캡셔닝’은 다양한 이미지를 기존 학습 데이터 기반으로 이해하고 유추해 그 결과를 텍스트로 설명하는 기술이다. 사람의 시각 인지 능력처럼 처음 본 사물이나 동물, 풍경 등이 포함된 이미지나 사진·그림·일러스트레이션 등 표현 방식이 다른 이미지를 분석할 수 있다.

예를 들어 토끼를 한 번도 본 적이 없는 사람이 토끼와 고양이가 함께 있는 것을 봤을 때, ‘토끼는 털이 있지만 고양이와 달리 귀가 길고 뒷다리가 발달했다’고 설명하는 것과 유사하다. 이 기술이 고도화하면 방대한 이미지 빅데이터의 키워드와 사진 설명을 자동으로 생성할 수 있고, 의학전문 데이터를 추가 학습하면 의학 영상을 의사처럼 분석할 수도 있다.

자율주행차, 스마트 공장의 비전센싱(시각센서 기술)과 연결하면 사람처럼 주변 상황이나 부품의 조립 상태를 파악해 정확한 판단을 내릴 수 있다. 여기에 언어 능력까지 갖춰 이를 설명하고 분석하는 문장을 만들어낼 수도 있다.

LG AI연구원은 자체 개발한 초거대 멀티모달 AI ‘엑사원(EXAONE)’의 기술개발 생태계에 크게 기여할 것으로 기대하고 있다. 서울대 AI대학원, 글로벌 유료 이미지 플랫폼 ‘셔터스톡’이 이번 대회를 공동 진행한다. 셔터스톡은 이미 ‘엑사원’을 기반으로 AI가 생성한 이미지의 상용서비스를 준비 중이다.

LG가 초거대 인공지능(AI) '엑사원'(EXAONE)으로 구현한 첫 AI 기반 인간을 미국에서 공개했다.   15일 LG에 따르면 전날(현지시간) 미국 뉴욕의 '뉴욕 패션위크'에서 선보인 AI 기반 아티스트 '틸다'(Tilda)는 지금까지 나온 가상 인간들과 달리 스스로 학습해 사고하고 판단할 뿐만 아니라 새로운 창작물을 만들고 인간과 자연스럽게 소통할 수 있다. 사진 LG

LG가 초거대 인공지능(AI) '엑사원'(EXAONE)으로 구현한 첫 AI 기반 인간을 미국에서 공개했다. 15일 LG에 따르면 전날(현지시간) 미국 뉴욕의 '뉴욕 패션위크'에서 선보인 AI 기반 아티스트 '틸다'(Tilda)는 지금까지 나온 가상 인간들과 달리 스스로 학습해 사고하고 판단할 뿐만 아니라 새로운 창작물을 만들고 인간과 자연스럽게 소통할 수 있다. 사진 LG

이경무 서울대 AI대학원 석좌교수는 “학습 데이터 없이 이미지·영상의 관계, 문맥을 이해해 인간 언어로 표현하고 설명하는 기술은 AI가 인간의 지능에 얼마나 가까워졌는지 보여주는 하나의 척도”라고 의미를 설명했다.

LG AI연구원은 올 6월 캐나다 밴쿠버에서 열리는 컴퓨터 비전 분야 최고 권위 학회인 ‘CVPR(Computer Vision and Pattern Recognition) 2023’에서 ‘제로샷 이미지 캡셔닝 평가의 새로운 개척자들’이란 주제로 워크숍도 연다.

여기에선 구글·마이크로소프트 등의 AI 연구자와 글로벌 석학이 참여해 해당 분야 연구의 방향서와 확장성, AI 윤리 등에 대해 심도 있는 논의를 진행한다. 또 ‘LG 글로벌 AI 챌린지’ 최종 수상팀의 성과 발표도 있을 예정이다. 김승환 LG AI연구원 비전랩장은 “객체를 인식하는 기술 수준을 넘어 인간 수준으로 영상을 이해하는 AI로 발전할 가능성을 확인했다”고 말했다.

ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT
ADVERTISEMENT