ADVERTISEMENT

[팩플] 눈·귀·입 생기고, 성격대로 말하고…AI도 골라쓴다

중앙일보

입력

눈과 귀, 목소리를 가진 인공지능(AI)들이 나오고 있다. 생성 AI 기업들이 다양한 AI 챗봇을 내놓으면서 이용자가 필요에 따라 AI의 성격이나 목소리 등을 골라 쓰는 시대가 머지 않았다는 전망이 나온다.

인공지능(AI). 로이터=연합뉴스

인공지능(AI). 로이터=연합뉴스

무슨 일이야

25일(현지시간) 오픈AI는 챗GPT가 음성과 이미지 정보를 처리할 수 있게 됐다고 발표했다. 눈, 귀, 입이 생긴 멀티모달 AI로 진화한 것이다. 멀티모달 AI는 텍스트뿐만 아니라 음성, 이미지, 영상 등의 여러 데이터를 입‧출력할 수 있는 모델이다. 오픈AI는 음성 생성에 음성·텍스트 변환 모델인 위스퍼 모델을 썼고, 이미지 인식을 위해 멀티모달 GPT-3.5 및 멀티모달 GPT-4를 사용했다고 밝혔다. 오픈AI는 “(AI의) 음성 생성과 이미지 인식 기술은 AI가 앞으로 어디까지 발전할 수 있으며, 무엇을 할 수 있는지를 보여준다”라고 평가하며 “우리의 목표는 안전하고 유익한 일반인공지능(AGI·인간 이상의 지능을 가진 AI)을 구축하는 것”이라고 강조했다.

새 기능은 유료 서비스인 챗GPT플러스·챗GPT 엔터프라이즈 이용자에게 향후 2주 동안 순차적으로 제공된다. 음성 대화 기능은 애플 iOS 앱과 구글 안드로이드 앱으로만 제공된다. 이미지 인식 기능은 모든 플랫폼에서 사용할 수 있다. 오픈AI는 “추후 무료 이용자에게도 멀티모달 AI 기능을 제공하겠다”고 밝혔다.

AI에 눈·귀·입 생기면 뭐가 달라

애플의 ‘시리’나 아마존의 ‘알렉사’처럼 챗GPT에 음성으로 질문하면 답변도 말로 들을 수 있다. 다섯 가지 목소리 중 하나를 선택할 수도 있다. 오픈AI는 글로벌 음원 스트리밍 서비스 스포티파이와 협력해 자신의 목소리를 다른 언어로 번역해 말할 수 있는 방안도 검토하고 있다고 밝혔다.

원하는 이미지를 챗GPT에 첨부하고 이에 대한 질문을 할 수도 있다. 이날 오픈AI는 음성 인식과 이미지 사례도 공개했다. 예를 들어 챗GPT에 자전거 사진을 올린 뒤 “안장을 낮추려면 어떻게 해야해?”라고 물으면, AI가 사진을 분석해 답변을 내놓는다.

이같이 AI가 멀티모달 방식으로 인간과 소통하는 방식은 빠르게 확산될 전망이다. 구글도 조만간 멀티모달 AI ‘제미니’를 발표할 예정이다. 입력하는 데이터가 다양해지면 더 똑똑한 AI 개발도 가능해진다. 미국 IT 전문매체 와이어드는 “지능이 더 발전된 AI를 만들려면 텍스트뿐 아니라 시청각 정보를 알고리즘에 제공해야 한다”고 설명했다.

챗GPT에 자전거 사진을 올리고 “안장을 낮추려면 어떻게 해야 하냐”고 질문하면, AI가 사진을 분석하고 답변을 내놓는다. 사진 오픈AI.

챗GPT에 자전거 사진을 올리고 “안장을 낮추려면 어떻게 해야 하냐”고 질문하면, AI가 사진을 분석하고 답변을 내놓는다. 사진 오픈AI.

이게 왜 중요해

AI가 진화하면서 사용자가 나에게 맞는 AI를 골라 쓰는 시대로 가고 있다. 텍스트 대화뿐만이 아니라 필요할 때는 말로 대화할 수 있는 AI부터 성격이 있는 AI까지 다종다양한 AI가 등장하고 있다. 메타는 영화 ‘그녀(HER)’처럼 인격·성격이 있는 ‘페르소나 AI’ 챗봇을 선보일 예정이다. 이미 유니콘(기업가치 10억달러 이상의 비상장사) 반열에 오른 미국의 스타트업 ‘캐릭터닷에이아이’는 실존인물, 소설‧영화 캐릭터의 성격을 입힌 페르소나 AI로 시장의 관심을 모았다. 기술이 발전하면서 사람들의 기대치 충족하는 진짜 ‘AI 비서’, ‘AI 친구’가 구현되고 있는 것이다. 하정우 네이버클라우드 AI이노베이션 센터장은 “AI 기술이 발전하면서 서비스의 차별화 혹은 품질의 차별화로 이어지고 있는 것”이라고 설명했다.

AI가 인간같은 목소리와 성격까지 갖추는 상황에 대한 우려도 나온다. AI에 성격을 부여하면 부적절하거나 공격적인 답변을 내놓을 위험성이 더 커진다는 연구도 있다. 앨런AI연구소가 오픈아카이브에 공개한 논문에 따르면, 설정된 페르소나에 따라 챗GPT가 잘못된 고정관념, 유해한 대화, 해로운 의견을 낼 수 있는 위험성이 최대 6배까지 증가했다.

앞으로는

빅테크의 챗봇 경쟁은 점점 더 치열해지고 있다. 아마존은 지난 20일 AI 음성 비서 알렉사에 생성 AI를 적용한다고 밝힌 데 이어 거대언어모델(LLM) 스타트업인 앤스로픽에 최대 40억 달러(5조 3900억원)를 투자한다는 계획을 발표했다. 마이크로소프트(MS)도 본격적으로 자사 제품에 AI 챗봇 ‘코파일럿’을 탑재하면서 시장 장악에 나서고 있다. PC 운영체제(OS)인 윈도11에 코파일럿을 탑재하는 데 이어 11월에는 사무용 소프트웨어인 MS365에 코파일럿을 통합한다.