'AI가 알아서 먼저 말을 건다?'…KAIST 연구진이 개발

중앙일보

입력

업데이트

 스마트 스피커의 선제적 대화 관리. 멀티 모달 센서 데이터를 활용하여 행동 및 컨텍스트를 센싱하는 기술이 상당히 발전하고 있다 . 멀티 모달 센서 데이터를 활용하여 , 사용자의 집에서의 행동을 감지하고 판단하여 , 적절한 순간에 말을 거는 선제적 서비스를 구현할 수 있을 것이다 . 예를 들어 ,  귀가 시 중단가능성이 매우 높다는 요인을 활용하여 ,  스마트 도어락 또는 현관 모션 센서 등으로 귀가를 감지한 후 대화를 시작하는 알고리즘을 적용할 수 있을 것이다 . [자료 KAIST]

스마트 스피커의 선제적 대화 관리. 멀티 모달 센서 데이터를 활용하여 행동 및 컨텍스트를 센싱하는 기술이 상당히 발전하고 있다 . 멀티 모달 센서 데이터를 활용하여 , 사용자의 집에서의 행동을 감지하고 판단하여 , 적절한 순간에 말을 거는 선제적 서비스를 구현할 수 있을 것이다 . 예를 들어 , 귀가 시 중단가능성이 매우 높다는 요인을 활용하여 , 스마트 도어락 또는 현관 모션 센서 등으로 귀가를 감지한 후 대화를 시작하는 알고리즘을 적용할 수 있을 것이다 . [자료 KAIST]

"OO(인공지능 이름)야, 거실 전등 켜줘"

위와 같이 명령하면 인공지능(AI) 스피커는 즉시 이를 수행할 수 있다. 그런데 사용자가 먼저 요청하지 않아도 처해 있는 상황에 맞게 AI가 먼저 도움을 줄 수 있을까.

KAIST는 전산학부 이의진 교수 연구팀이 스마트 스피커 AI 비서가 선제적으로 말 걸기 좋은 최적의 시점을 결정하는 중요한 상황맥락 요인을 찾아냈다고 28일 밝혔다.

시판 중인 스마트 스피커 AI 비서는 사용자가 먼저 요청한 서비스만 제공한다. 반면 최근 스마트 스피커의 개발은 사용자의 상황에 맞춰 능동적인 서비스를 제공하는 형태로 진화하고 있다. 이대로 기술이 발전한다면 똑똑한 음성비서가 사용자가 처해 있는 상황을 인식한 후 선제적으로 일정 및 건강관리를 도와줄 수도 있다. 하지만 아무 때나 눈치 없이 말을 건다면 도움은커녕 하는 일에 방해만 될 수 있다.

이런 점에서 '최적의 발화 시점'에 관한 추론은 AI 비서가 음성서비스를 시작하거나 멈추는 것을 스스로 결정하기 위한 필수적인 기술이다. 이 교수 연구팀이 찾아낸 중요한 상황 맥락 요인은 최적의 발화 시점 추론 시 정확성을 높일 수 있을 것으로 기대된다.

 실험용스마트 스피커 제작 [자료 KAIST]

실험용스마트 스피커 제작 [자료 KAIST]

연구진은 교내 기숙사에 거주하는 학생 40명(2인 1실)의 방에 스마트 스피커를 설치해 1주일간 총 3500개의 사용자 응답 데이터를 수집했다. 그 결과 적절한 발화 시점을 결정하는 상황 맥락 요인으로 크게 개인적 요인과 움직임 요인, 사회적 요인을 꼽았다.

개인적 요인을 살펴보면 집중해서 공부하고 있거나 드라이로 머리를 말리고 있을 때는 스피커와 대화가 어려웠다. 또한 사용자 움직임이 있을 때는 스피커와 대화 가능한 거리가 최적 시점 판단에 큰 영향을 미쳤다. 귀가 상황일 때는 대부분 대화하기 좋은 시점으로 분류됐다.

제1 저자인 차나래 학생은 "이번 연구가 미래 스마트 스피커 개발의 중요한 토대가 될 것ˮ이라며 "앞으로는 센서 데이터로 감지된 상황 맥락 정보를 활용해 스마트 스피커가 스스로 대화를 시작·중지, 또는 재개하기 좋은 타이밍을 선제적으로 감지해 지능적인 음성서비스를 제공할 수 있을 것ˮ이라고 밝혔다.

이번 연구 결과는 유비쿼터스 컴퓨팅 분야 국제 학술지인 ACM IMWUT 9월호에 게재됐다.

권유진 기자 kwen.yujin@joongang.co.kr

ADVERTISEMENT
ADVERTISEMENT